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内 容 提 要 

本 书 由 实战 经 验 丰 富 的 两 位 数据 分 析 师 执笔 , 首先 介绍 了 商业 领域 里 通用 的 数 
据 分 析 框 架 , 然后 根据 该 框架 , 结合 8 个 真实 的 案例 , 详细 解说 了 通过 数据 分 析 解 决 
各 种 商业 问题 的 流程 , 让 读者 在 解决 问题 的 过 程 中 学 习 各 种 数据 分 析 方 法 , 包括 柱状 
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策 树 分 析 、 机 器 学 习 等 。 特别 是 书 中 使 用 的 数据 都 是 未 经 清洗 的 原始 数据 , 能 够 让 读 
者 了 解 真实 的 数据 分 析 流 程 , 避免 纸上谈兵 。 
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译 者 序 


伴随 着 互联 网 的 高 速 发 展 和 以 云 计 算 为 代表 的 技术 创新 ， 过 去 难以 
收集 和 存储 的 大 量 数据 得 以 集中 管理 和 使 用 ， 大 数据 时 代 已 经 来 临 。 然 
而 ， 如 何 发 掘 大 数据 这 座 金 矿 ， 使 之 在 商业 领域 体现 其 最 终 价 值 ， 这 属 
于 数据 科学 ( Data Science ) 的 范畴 ， 也 是 数据 科学 家 (Data Scientist ) 
的 工作 职责 所 在 。 














要 想 成 为 一 名 合格 的 数据 科学 家 ， 不 仅 需 要 拥有 深厚 的 统计 学 等 理 
论 基础 ， 更 需要 有 较 强 的 业务 能 力 、 对 数据 的 敏感 性 以 及 处 理 实际 商业 
数据 的 经 验 。 对 于 这 一 点 我 深 有 体会 。 在 日 本 留学 期 间 我 有 柱 进 入 乐天 
技术 人 研究 所 ( Rakuten Institute of Technology )， 这 也 是 我 第 一 次 接触 到 
生产 环境 下 的 数据 。 然 而 在 面 对 公 司 实际 问题 时 ， 我 拿 看 海量 的 各 种 日 
志 数 据 却 经 党 有 种 不 知 从 何 下 手 的 感觉 。 

















这 是 因为 现实 中 我 们 需要 面 对 的 不 再 是 抽象 的 理论 ， 而 是 真实 的 生 
产 环境 下 的 问题 ， 并 且 生 产 环境 下 的 数据 噪声 远 比 实验 室 中 使 用 的 数据 
要 高 。 面 对 这 些 问题 ， 作 者 在 本 书 中 给 出 了 很 好 的 答案 ， 在 理论 与 实际 
之 间 搭 建 了 一 座 桥梁 。 本 书 没有 教条 似 的 说 教 ， 而 是 使 用 某 个 游戏 公司 
实际 工作 中 所 遇 到 的 问题 作为 案例 ， 让 读者 在 解决 具体 问题 的 过 程 中 理 
解数 据 分 析 的 整个 流程 。 特 别 是 当 涉 及 园 辑 回归 、 聚 类 、 主 成 分 分 析 等 
理论 性 较 强 的 内 容 时 ， 本 书 没 有 使 用 大 篇 幅 的 理论 解释 和 数学 推导 ， 而 
是 在 实践 过 程 中 对 各 类 机 各 学 习 算法 进行 详尽 而 又 通俗 易 懂 的 介绍 。 更 
难能可贵 的 是 ， 为 了 使 得 本 书 的 内 容 更 贴近 生产 实践 ， 书 中 使 用 的 各 种 
案例 的 数据 均 为 未 经 清洗 的 原始 日 志 数 据 ， 这 使 得 读者 可 以 接触 到 实际 
生产 环境 下 的 数据 ， 从 而 避免 了 纸上谈兵 。 
































本 书 适 合 各 大 公司 的 数据 分 析 师 、 算 法 工程 师 、 数 据 挖 据 工 程 师 以 
及 今后 立志 从 事 数 据 分 析 和 数据 挫 气 工作 的 高 校 学 生 阅读 。 
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在 翻译 本 书 的 过 程 中 ， 非 常 感谢 图 灵 公 司 的 各 位 编辑 所 给 予 的 帮 
助 。 同 时 也 感谢 我 的 妻子 李 春 毁 在 怀 竺 期 间 对 我 工作 的 上 默默 支持 ， 感 谢 
我 的 儿子 明 诚 一 直 很 琅 地 陪伴 。 乔 望 本 书 能 够 对 读者 在 实际 数据 分 析 工 
作 中 有 所 帮助 。 





肖 峰 
2016 年 12 月 于 北京 
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Dl 


如 果 你 每 天 午 在 和 数据 分 析 业 务 打 交道 ， 那 么 很 可 能 经 笛 听 到 下 述 


说 法 。 


J OW 


G. 


在 数据 收集 和 分 析 上 投入 了 巨大 的 成 本 ， 然 而 效 末 和 了 预期 相距 甚 远 。 
从 数据 分 析 部 门 拿 到 了 详细 的 报告 ,然而 内 容 却 非常 星 深 难 慌 。 
数据 大 致 虱 有 了， 然而 因为 工作 很 人 性， 没 能 很 好 地 进行 分 析 利 用 。 
数据 全 部 都 保存 了 下 来 ， 但 是 却 不 知道 如 何 才 能 很 好 地 利用 这 
些 数据 。 

虽然 每 天 都 会 检查 和 核对 重要 的 数据 ， 但 对 于 如 何 利用 这 些 数 
据 来 指导 手头 的 工作 ， 却 还 不 是 很 清楚 。 

我 们 徘 的 是 相关 负责 人 的 业务 经 验 ， 这 个 比 数据 更 加 可 靠 。 
数据 ? 分 析 ? 还 是 算 了 吧 ， 移 把 目 己 能 力 范 围 内 的 事情 做 好 再 说 。 














数据 分 析 在 很 多 情况 下 对 提升 工作 效率 很 有 帮助 。 根 据 我 们 的 杀 号 
经 验 ， 在 各 行 各 业 的 不 同 领域 ,， 尽管 数据 分 析 所 起 的 效 琳 大 小 可 能 有 差 











异 ,， 但 确实 有 着 非 常 多 的 成 功 案 例 。 然 而 ， 正 如 上 述 各 种 说 法 所 反映 的 














那样 ， 实 际 上 在 企业 内 部 的 各 个 部 门 里 ， 还 有 很 多 数据 分 析 的 问题 没有 


解决 。 


站 在 分 析 者 的 角度 来 看 ， 关 于 上 述 各 种 说 法 所 产生 的 背景 ,可 以 大 
体 总 绪 出 以 下 几 点 。 


A.'. 





数据 分 析 ， 特 别 是 机 此 学 习 等 ， 被 误 认为 是 一 种 普通 人 无 法 理 
解 的 魔法 一 样 的 东西 。 


-数据 分 析 只 是 在 利用 复杂 的 数值 分 析 来 对 实际 现象 做 出 解释 。 
-数据 是 保存 了 下 来 ， 但 数据 分 析 还 需要 时 间 和 人 力 等 。 

. 数据 是 保存 了 下 来 ， 但 是 却 不 知 如 何 来 做 数据 分 析 。 

.虽然 通过 营业 和 额 等 重要 的 数据 能 够 把 握 经 营 的 现状 ， 然 而 这 些 
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数据 对 于 今后 的 经 营 东 略 有 何 指导 作用 ， 却 不 其 明了 。 
F'。 不 知道 数据 分 析 和 业务 经 验 其 实 可 以 优 努 互补， 并 产生 协同 
效应 。 
即便 是 在 那些 只 需要 一 味 柳 干 的 工作 中 ， 如 果 同 时 使 用 数据 分 
析 的 手法 ， 也 可 以 有 效 地 提高 工作 质量 。 然 而 很 多 人 却 不 知道 


这 一 点 (®) 








= 


G. 





一 般 来 说 ， 为 了 成 功 地 完成 某 件 事 ， 我 们 需要 经 历 “ 知 道 、 理 解 、 
竺 握 、 精 通 ”这 几 个 阶段 。 要 想 从 一 个 阶段 迈 入 下 一 个 阶段 ， 承 必须 跨 
越 阶段 间 的 巨大 障碍 。 从 上 述 各 种 问题 来 看 ， 虽 然 “不 知道 、 无 法 理解 、 
无 法 擎 握 、 无 法 精通 ”这 些 阶段 各 有 不 同 ， 但 问题 都 可 以 归结 到 同一 
点 ， 那 就 是 不 了 解数 据 分 析 在 商业 领域 是 完全 可 以 获得 成 功 的 。 

也 就 是 说 ， 我 们 或 许可 以 将 上 述 这 些 问 题 的 原因 归结 为 信息 匮乏 。 

正 因 如 此 ， 我 们 和 硕 望 通过 本 书 回访 者 展示 商业 活动 中 数据 分 析 的 一 
些 经 典 案 例 ， 通 过 这 些 案 例 来 四 谈 者 揭示 数据 分 析 的 作用 。 本 书 的 该 者 
对 和 象 主要 有 : 














e@ 关注 商业 数据 分 析 的 人 
e@ 在 实际 工作 中 从 事 商业 数据 分 析 的 人 








所 谓 关 注 商 业 数 据 分 析 的 人 ， 是 指 将 来 打算 从 事 数 据 分 析 工 作 的 学 
生 ,， 或 者 工作 没 多 久 的 商业 人 士 ， 以 及 想 把 数据 分 析 作 为 自重 技能 之 一 
的 商业 精英 ， 还 有 正在 筹划 设立 数据 分 析 部 门 的 公司 经 宵 管 理 层 。 
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数据 分 析 的 现状 和 观点 
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第 1 章 
| 数据 科学 家 的 工作 








ES 


第 2 章 
| 商业 数据 分 析 流 程 











| 1 


主要 面向 对 数据 分 析 感 兴趣 的 读者 


人 
为 什么 销售 额 会 减少 





数据 分 析 的 应 用 
主要 面向 数据 分 析 的 从 业 人 员 








第 7 音 


第 7 章 
根据 过 去 的 行为 能 否 预测 当下 











2 


Ss 第 4 重 i 
什么 样 的 顾客 会 选择 离开 





Ea ES 


第 8 草 
应 该 选择 什么 样 的 目标 用 户 群 














第 5 章 第 9 章 
哪 种 广告 的 效果 更 好 具有 哪些 行为 的 用 户 会 是 长 期 用 户 

















第 6 章 第 10 章 
如 何 通过 各 种 广告 的 组 合 获得 如 何 让 组 队 游 戏 充满 乐趣 
更 多 的 用 户 








统计 处 理 方法 
”统计 处 理 方法 
lads . 逻辑 回归 分 析 。“… 聚 类 
. 柱状 图 . 交叉 列表 统计 “ 主 成 分 分 析 “ 决策 树 分 析 
. 统计 学 假设 检验 多 元 回归 分 析 - 机 器 学 习 


ES 


检验 认定 的 原因 对 于 结果 有 
何 影响 ， 属 于 验证 型 的 数据 ， 


下 


和 和 用 多 种 统计 方法 的 组 宣 洲 恒 
解决 商业 领域 的 课题 ， 属 于 ， 


定制 型 的 数据 分 析 


机 


本 书 的 结构 和 目标 读者 


第 1 草 主 要 介绍 从 事 商 业 数据 分 析 的 数据 科学 家 的 现实 情况 。 第 2 
曹 主要 介绍 在 商业 领域 里 通用 的 数据 分 析 框 以。 

从 第 3 革 开 始 ， 基 本 上 就 是 根据 第 2 章 提 到 的 数据 分 析 框 架 来 介绍 
具体 的 数据 分 析 案 例 。 第 3 章 到 第 6 章 主要 介绍 数据 分 析 的 基础 。 因 为 
这 部 分 是 基础 的 东西 ， 所 以 在 商业 环境 下 很 少 有 机 会 用 到 ， 但 本 书 会 尽 
可 能 地 将 基础 知识 和 实际 业务 相 结合 ， 对 商业 数据 分 析 相 关 的 观点 和 实 
际 的 业务 进行 充分 说 明 。 

从 第 7 章 到 第 10 章 的 后 半 部 分 是 具体 案例 分 析 ， 这 部 分 内 容 是 笔 
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者 参考 了 实际 从 事 商业 数据 分 析 的 同行 的 工作 而 写成 的 。 在 应 用 篇 中 ， 
我 们 将 介绍 更 加 高 级 的 方法 ， 比 如 将 多 种 方法 组 合 ， 或 者 比较 儿 种 方法 
中 哪 种 更 有 效 等 。 此 人 处 介绍 的 数据 分 析 的 应 用 案例 主要 针对 在 社交 游戏 
产业 或 IT 以 及 其 他 行业 从 事 数据 分 析 业 务 的 人 员 ， 这 些 行 业 的 数据 分 
析 人 员 很 多 时 候 都 可 以 将 案例 中 介绍 的 方法 直接 应 用 在 工作 中 。 对 于 其 
他 行业 的 分 析 人 员 ， 也 乔 望 他 们 能 够 参考 这 些 应 用 案例 ， 灵 活 应 用 在 目 
己 的 工作 环境 中 ， 并 提出 新 的 分 析 观 点 。 男 外 ， 本 书 的 创新 之 处 在 于 ， 
从 实际 进行 的 数据 分 析 案 例 中 挑选 了 4 个 来 介绍 ， 这 些 案 例 中 所 进行 的 
数据 分 析 是 其 他 同类 数据 分 析 图 书 中 不 曾 有 过 的 。 

本 书 提 供 了 各 半 中 使 用 的 数据 ， 以 及 加 工 和 分 析 数 据 时 使 用 的 R 语 
言 脚本 代码 。 读 者 可 以 一 边 阅读 各 种 案例 ， 一 边 从 数据 分 析 师 的 角度 来 
体验 实际 的 数据 分 析 流 程 。 在 讲解 数据 分 析 的 其 他 同类 图 书 中 ， 经 党 使 
用 那些 和 书 中 内 容 高 度 相符 的 数据 来 分 析 ， 但 大 多 数 读 者 会 发 现在 实际 
业务 中 使 用 书 中 的 方法 却 很 困难 。 而 本 书 的 各 个 案例 提供 的 都 是 最 原始 
的 数据 ， 这 些 数据 都 是 没有 经 过 人 处理、 杂乱 无 革 的 ， 因 此 需要 在 使 用 前 
先 处 理 一 下 。 针 对 这 些 原 始 数 据 ， 如 何 灵活 使 用 统计 分 析 工 具 来 进行 处 
理 ， 本 书 尽 可 能 地 给 出 了 详细 的 解释 。 

希望 本 书 能 够 对 数据 分 析 从 业 人 员 ( 数据 科学 家 ) 在 实际 业务 中 应 
用 数据 分 析 起 到 玫 助 ， 同 时 也 乔 望 能 够 帮助 该 者 诛 刻 理解 效 据 科 学 家 的 
工作 内 容 ， 并 和 他 们 一 起 更 好 地 完成 工作 。 
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数据 科学 家 的 工作 


市 场 营 销 的 主要 从 业者 并 不 是 扩 术 人 员 ， 所 以 很 难 立 即 找到 
合适 的 从 业者 。 现 在 市 场 营销 的 工作 主要 由 3 种 职业 的 人 员 
相互 协作 来 完成 。 
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什么 是 数据 科学 家 





什么 是 数据 


首先 我 们 需要 回答 的 问题 是 : 什么 是 数据 ?上 自古 以 来 ,人们 通过 观 
察 客 观 现象 ， 并 对 观测 的 数据 进行 分 析 ， 从 而 发 现 了 各 种 各 样 的 规律 和 
法 则 。 比 如 ， 开 普 勒 根据 天 体 观 测 的 数据 ， 发 现行 星 是 以 太阳 为 中 心 沿 
着 椭圆 形 轨道 运行 的 。 在 统计 学 领域 ， 棣 英 弗 通过 对 多 种 游戏 的 观测 ， 














提出 了 中 心 极限 定理 ， 而 这 个 定理 正 是 正 态 分 布 理 论 的 核心 。 也 就 是 
说 ， 如 果 我 们 把 过 去 的 某 些 事情 记录 下 来 ， 并 由 此 推导 出 一 些 可 能 的 规 
律 ， 而 这 些 规 律 又 能 够 解释 当前 东 些 事情 的 前 因 后 东 ， 那 么 基于 这 样 的 
过 程 ， 就 可 以 根据 现在 的 事情 预测 未 来 。 也 正 是 各 领域 内 这 样 的 规律 不 
里 被 发 现 、 考 证 和 人 研究 ， 才 推动 了 科学 的 发 展 。 而 数据 则 是 发 现 和 验证 











这 些 规律 的 关键 ,是 十 分 宝贵 的 材料 。 


数据 在 商业 中 的 应 用 





近年 来 ， 随 着 网 络 或 POS ( Point Of Sale， 销 售 点 ) 系统 的 快速 发 
展 ， 人 的 行为 可 以 简单 地 作为 数据 存储 起 来 ， 尤其 是 涉及 购买 行为 的 数 
据 存 储 了 特别 多 。 如 采 我 们 能 够 从 这 些 存 储 的 数据 中 推导 出 与 用 户 购买 
行为 相关 联 的 规则 ， 那 么 这 将 会 丰 履 商业 世界 里 一 下 以 来 所 名 循 的 某 类 
经 验 ， 而 在 这 种 科学 的 数据 分 析 的 指引 下 ， 将 会 打开 新 的 商业 局 面 。 

话说 回来 ， 其 实在 日 党 生活 中 我 们 也 经 和 常 使 用 数据 分 析 。 比 如 ， 大 
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多 数 人 都 会 定期 去 称 体重 。 称 重 的 时 候 ， 体 重 数值 本 身 并 没有 多 大 意 
义 ， 我 们 并 不 能 说 “50 kg 比较 好 ”或 者 “体重 到 了 51 kg 就 精 糕 了 ”。 
也 就 是 说 ，50 kg、51 kg 之 类 的 体重 数值 并 没有 什么 绝对 的 意义 ， 而 仅 
仅 是 身体 重量 的 观测 数据 而 已 。 然 而 根据 这 些 观测 数据 ， 我 们 可 以 完成 
以 下 事情 。 


女 根据 自己 的 性 别 、 年 龄 、 身 高 等 其 他 数据 ， 推 断 出 理想 的 健康 体 
重 ， 并 将 其 设 定 为 目标 值 

太 通 过 长 期 跟 踊 测量 体重 ,得 到 体重 随时 间 变 化 的 观测 数据 ， 并 将 过 
去 暴 饮 暴食 等 行为 与 体重 的 变化 联系 起 来 ， 从 而 反省 自己 的 行为 

女 通 过 收集 拥有 理想 身材 的 人 的 运动 和 饮食 生活 等 方面 的 数据 ， 效 
仿 他 们 健康 的 生活 方式 


很 多 人 为 了 达到 控制 体重 的 目的 ， 都 会 根据 自己 的 体重 观测 数据 ， 
选择 采取 上 述 某 种 具体 的 行为 。 

在 商业 领域 里 也 是 一 样 。 人 们 通常 会 通过 观测 数据 来 推测 出 某 种 因 
采 关 系 ， 青 用 这 种 因 琳 关系 预测 未 来 ,或 者 控制 原因 以 达到 预期 的 结 
果 。 最 近 ， 越 来 越 多 的 企业 开始 为 这 种 工作 增设 一 个 专门 的 职位 ， 招 努 
被 称 为 数据 科学 家 的 人 才 加 入 。 


力 什 么 需要 数据 科学 家 


在 商业 领域 ， 从 观测 数据 中 推导 出 因果 关系 曾经 是 市 场 营销 部 的 工 
作 内 容 ， 并 由 专门 的 市 场 营销 人 员 来 承担 此 项 工作 。 市 场 彰 销 部 的 主要 
目的 是 “理解 用 户 的 需求 ， 迎 合用 户 的 口味 开展 商业 活动 ”。 

具体 来 说 ,市 场 营 销 部 的 主要 工作 有 分 析 各 种 销售 额 数 据 ， 分 析 对 
于 广告 和 新 产品 认 知 度 以 及 正在 销售 商品 的 满意 度 问 卷 调查 ， 分 析 售 后 
部 门 收 到 的 用 户 咨询 等 ， 并 以 “理解 用 户 的 需求 ， 迎 合用 户 的 口味 ”为 
原则 ， 开 展 企业 的 市 场 俏 销 活动 。 市 场 彰 销 活动 在 各 个 领域 都 取得 了 一 
定 的 成 果 ， 市场 营 销 部 才 有 继续 存在 的 价值 。 

然而 ， 随 着 信息 技术 的 发 展 ， 商 业 环 境 也 在 发 生 着 变化 ， 企 业 可 以 
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保存 大 量 的 商业 日 志 。 在 商业 活动 中 ， 通 过 尽早 地 对 目 身 的 细 记 问题 进 
行 反复 修正 来 顺应 用 户 需 求 的 服务 一 直 存 在 ， 于 是 就 有 人 提出 能 和 否 将 这 
大 量 的 日 志 应 用 于 一 直 以 来 的 市 场 膏 销 活 动 中 。 也 就 是 说 ， 在 分 析 过 程 
中 不 仅 要 考虑 到 已 有 的 市 场 彰 销 数据 ， 而 且 还 要 针对 实时 性 较 高 的 大 量 
日 志 数 据 做 出 快速 分 析 。 

为 了 满足 这 种 需求 ， 就 需要 能 够 直接 分 析 日 志 数 据 的 人 ， 也 就 是 
“会 写 代码 的 市 场 膏 销 人 员 ”。 这 类 会 写 代 人 码 的 市 场 营 销 人 员 现 如 今 也 被 
称 为 数据 科学 家 。 也 就 是 说 ， 为 了 应 对 近 些 年 来 商业 环境 的 变化 ， 在 过 
去 不 曾 有 过 的 领域 里 产生 了 极 大 的 可 能 性 和 值得 关注 的 地 方 。 然 而 ， 过 
去 市 场 悍 销 的 主要 从 业者 并 不 是 技术 人 员 ， 所 以 很 难 立 即 找到 合适 的 从 
业者 ， 现 在 这 个 工作 主要 由 3 种 职业 的 人 员 相 互 协 作 来 完成 。 
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3 种 类型 的 数据 科学 家 





商业 领域 出 身 的 数据 科学 家 





在 过 去 ， 有 一 种 职业 路 线 是 商业 经 验 丰富 的 人 加 入 市 场 彰 销 活 动 的 
第 一 线 。 经 营 方 面 的 老手 根据 经 验 就 可 以 知道 商品 能 卖 得 出 去 的 关键 因 
素 是 什么 ; 而 在 生产 一 线 有 着 丰富 经 验 的 人 就 能 知道 要 生产 满足 用 户 需 
求 的 产品 具体 有 多 么 困难 。 

这 些 长 期 和 商业 打交道 的 人 的 经 验 与 数据 分 析 并 不 是 相对 立 的 ， 如 
果 能 够 深刻 理解 实践 经 验 和 数据 分 析 这 两 者 的 作用 ， 并 使 其 相辅相成 ， 
将 为 商业 活动 作出 很 大 贡献 。 例 如 ， 如 宁 一 个 人 既 有 数据 科学 家 的 素 
养 ， 又 有 丰富 的 商业 经 验 ， 那 么 仅 攒 一 个 销售 数据 就 能 猜测 出 这 个 数据 
背后 的 经 济 动向。 也 就 是 说 ， 这 种 人 能 够 根据 以 往 的 经 验 ， 推 测 出 隐藏 
在 数据 背后 的 真实 背景 。 比 如 ， 在 销量 减少 时 ， 能够 想到 原因 可 能 是 这 
个 领域 的 市 场 在 缩小 ， 或 者 将 和 争 对 于 公司 变 得 强大 了 ， 或 者 其 他 公司 推 
出 了 某 种 划时代 的 产品 ， 而 本 公司 因为 技术 的 原因 没有 与 之 相 匹 敌 的 
产品 。 

现在 已 经 出 现 了 这 样 来 目 商业 领域 的 数据 科学 家 。 他 们 能 够 从 实际 
的 经 验 出 发 ， 对 数据 做 出 深刻 的 解读 。 同 时 他 们 也 擅长 找 出 关键 的 数 
据 ， 来 了 解 实际 用 户 的 需求 。 
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统计 学 出 身 的 数据 科学 家 


熟悉 统计 学 方法 的 人 也 经 篆 参 与 到 市 场 党 销 活 动 中 来 。 这 些 人 通常 











是 计量 经 济 学 、 遗 传 学 、 物 理学 、 人 工 智 能 等 学 科 的 学 者 、 学 后 或 研究 
人 员 。 他 们 平时 在 自己 的 专业 研究 中 就 十 分 擅长 使 用 统计 学 方法 。 要 想 
这 刻 地 理解 各 种 统计 学 方法 ， 数 学 是 主要 的 隐 人 得。 而 要 想 用 好 统计 学 方 
法 ， 又 必须 深刻 地 理解 它们 。 所 以 要 想 学 好 统计 学 方法 ， 束 必须 付出 辛 
勤 的 努力 。 

在 这 方面 有 着 丰 富 经 验 的 人 通 津 会 从 数据 的 状态 等 条 件 出 发 ,根据 
自己 的 目的 和 想 要 得 到 的 结果 来 确定 数据 分 析 的 方法 ， 具 体 如 下 所 示 。 





@ 为 了 进行 市 场 分 析 ， 销 售 数据 应 该 如 何 分 段 才 合 适 
@ 了 由 于 使 用 交叉 列表 的 次 数 过 多 ， 应 使 用 购物 篮 分 析 
〇 空白 的 数据 过 多 的 情况 下 ， 应 该 先 使 用 主 成 分 分 析 


即 可 以 根据 数据 的 状态 和 处 理 的 目的 选择 合适 的 统计 方法 。 力 外 ， 
在 实际 使 用 统计 方法 的 过 程 中 ， 还 能 够 增加 对 数据 分 析 局 限 性 的 了 解 ， 
积累 各 统计 方法 的 使 用 技巧 方面 的 经 验 。 

有 痢 上 述 系 养 的 人 也 很 清楚 如 何 加 工 数据 以 便 顺 利 进 行 数据 分 析 ， 
以 及 如 何 根 据 数据 的 状态 选取 相应 的 统计 方法 。 





工程 领域 出 身 的 数据 科学 家 


IT 工程 师 也 能 够 参与 到 市 场 营销 活动 中 来 。 数 据 科 学 家 的 一 大 半 工 











作 都 是 数据 的 前 期 处 理 ， 也 就 是 为 了 数据 分 析 而 做 的 数据 整理 工作 。 这 
一 步 通 利 会 丘 用 大 量 的 时 间 ， 所 以 如 末 能 够 缩短 这 一 步 所 消耗 的 时 间 ， 
就 可 以 提高 数据 分 析 的 生产 率 。 为 了 做 好 数据 整理 工作 ， 和 需要 能 写 出 高 
质量 的 代码 ， 而 要 想 拥有 这 项 技能 就 需要 付出 努力 。 

在 这 方面 有 着 丰富 经 验 的 人 都 有 较 高 的 编程 能 力 和 深厚 的 计算 机 知 
识 功底 ， 他 们 能 够 判断 出 哪 种 计算 机 语言 和 系统 架构 更 利于 数据 处 理 。 
比如 ， 使 用 Hive 来 处 理 较 大 的 销售 额 数 据 ; 因为 每 天 的 统计 处 理 可 能 
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花费 几 十 分 钟 ， 所 以 事先 统计 好 用 于 分 析 的 中 间 数 据 ; 当 数 据 无 法 全 部 
读 入 内 存 时 ， 先 将 数据 切割 成 100 份 分 别处 理 ， 最 后 再 把 结果 统合 起 
来 。 像 这 样 ， 他 们 能 够 根据 数据 量 的 大 小 和 处 理 所 需 的 资源 选择 合适 的 
机 笑语 言 和 系统 洋 构 等 。 

这 类 有 闭 工 程 师 背 景 的 分 析 人 员 非 党 挥 长 将 复杂 的 数据 整理 得 易于 
分 析 ， 且 具备 针对 数据 分 析 选 择 合适 的 处 理 语 言 和 系统 染 构 的 能 

















PA Ee USC OES EN Ee REE OOO OE ERK ES EES eA EE ORE TE EE USE NE 


目前 看 来 并 不 能 说 哪 种 职业 背景 的 人 从 事 数据 分 析 ， 
更 有 优势 ， 需 要 从 各 自 的 职业 背景 出 发 ， 学 习 数据 ， 
分 析 所 需 的 要 素 和 技术 ， 以 达到 提升 商业 效果 的 目的 ， 


过 


商业 相关 的 经 验 和 知识 设计 方法 相关 的 经 验 和 知识 
( 策划 、 营 业 的 负责 人 ) ( 学 者 、 研 究 人 员 ) 
— 图 形 化 统计 学 假设 检验 | 加 
二 感受 理解 和 NN 
星 解 用 户 的 感受 交叉 列表 统计 。” 多 元 回归 分 析 蛙 解 统计 分 析 
、 购物 篮 分 析 贝 叶 斯 统计 “ 
“、 聚 类 网 络 分 析 
人 民 。 决策 树 分 析 a 
“数量 化 理论 2 
强化 学 习 “ 
SOL 
Hive ey 


~ Mahout 
Pig ， 
和 Hadoop 
熟悉 数据 处 理 编程 
数据 处理 相关 的 
编程 经 验 和 知识 
(IT 工程 师 ) 


数据 科学 家 的 必要 条 件 
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[ 攻 列 效 据 科 拖 家 的 现状 











虽然 有 这 样 3 类 数据 科学 家 ， 但 现在 看 来 很 难说 哪 种 类 型 的 数据 科 
学 家 从 事 数据 分 析 更 有 优势 ， 在 对 商业 的 理解 、 统 计 方法 的 理解 ， 以 及 
程序 和 系统 的 理解 方面 ， 他 们 各 目 都 有 不 足 的 地 方 。 为 了 弥补 这 些 不 
足 ， 他 们 也 都 在 不 断 地 自我 完善 和 发 展 ， 通 过 优势 互补 来 完成 市 场 营 销 
业务 。 

例如 ， 和 有 着 丰富 商业 经 验 的 人 交谈 ， 可 以 确认 对 数据 的 解释 是 否 
合适 ,探讨 是 否 还 有 其 他 的 解释 ; 和 熟悉 统计 方法 的 人 交谈 ， 可 以 确认 
某 些 因 末 关系 的 正确 性 ， 探 讨 是 否 还 有 效率 更 高 的 机 各 学 习 方 法 可 以 利 
用 ; 而 和 那些 工程 能 力 很 强 的 人 在 一 起 ， 则 可 以 硝 认 现 有 的 数据 收集 和 
加 工 方法 是 否 有 效 ， 并 探讨 如 何 处 理 大 数据 。 这 样 就 能 在 工作 中 将 这 3 
个 方面 统合 起 来 。 在 100 人 以 下 的 机 构 里 ， 这 3 种 角色 一 般 都 是 在 同一 
个 部 门 里 相互 协作 。 而 如 果 是 在 1000 人 左右 的 机 构 里 ， 则 会 分 别 成 立 3 
个 部 门 来 承担 这 3 种 工作 ， 然 后 再 在 部 门 间 开 展 协作 。 

无 论 读者 是 上 述 3 种 类 型 中 的 哪 种 ， 本 书 都 能 够 帮助 读者 向 握 相应 
的 知识 。 熟 悉 商业 领域 的 读者 ， 可 以 从 本 书 中 学 到 统计 学 和 实际 的 数据 
处 理 方面 的 知识 ; 熟悉 统计 方法 的 读者 ， 可 以 从 本 书 中 了 解 到 数据 分 析 
的 应 用 实例 和 数据 处 理 方面 的 知识 ; 而 从 事 IT 工程 开发 的 读者 ， 可 以 从 
本 书 中 了 解 到 数据 分 析 的 应 用 实例 和 统计 学 方面 的 知识 。 那 些 在 今后 目 
号 的 职业 规划 中 将 数据 科学 家 之 类 的 新 领域 也 纳入 考虑 犯 围 的 人 ， 即 使 
现在 并 不 属于 这 3 种 类 型 中 的 任何 一 种 ， 也 可 以 通过 对 本 书 中 具体 案例 
的 学习 ， 了 解数 据 分 析 的 实际 情况 。 
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第 2 章 





商业 数据 分 析 流 


数据 分 析 就 是 从 现状 出 发 ， 寻 找 一 条 可 以 达到 预期 的 最 短路 径 ， 
在 此 过 程 中 应 着 眼 于 找 出 主要 的 问题 ， 然 后 根据 下 面 的 架构 
来 解决 这 些 问题 。 














现状 和 预期 


vv 


发 现 问 题 





数据 的 收集 和 加 工 


数据 分 析 


vv 
小 
小 


解决 对 策 
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2 有 本 数据 分 析 的 5 个 流程 





商业 数据 分 析 的 目的 ， 就 是 要 用 统计 分 析 、 机 此 学 习 、 数 据 挖掘 的 
各 种 方法 来 解决 商业 领域 里 的 各 种 问题 。 这 里 需要 注意 的 是 ， 商 业 数 据 
分 析 的 最 终日 的 是 解决 问题 。 

例如 ， 你 委托 某 家 专业 数据 分 析 公 司 来 帮 你 做 数据 分 析 ， 那 么 他 们 
会 提供 大 量 很 难 居 的 资料 给 你 ， 而 你 最 终 得 到 的 却 是 一 些 理所当然 的 绪 
论 。 在 把 商业 数据 分 析 委 托 给 曾经 在 学 术 圈 活动 的 数据 分 析 师 或 者 不 了 
解 商业 知识 的 外 部 组 织 时 ， 这 种 情况 经 常 发 生 。 

总 之 ,使 用 高 度 复杂 的 模型 得 到 的 高 精度 分 析 结 果实 际 上 不 一 定 具 
有 很 蜗 的 价值 。 与 其 花费 大 量 时 间 在 复杂 的 建 模 上 ， 不 如 使 用 人 简单 的 交 
又 列表 (参考 第 4 章 ) 在 短 时 间 内 得 到 分 析 结 采 ， 这 在 实际 的 商业 环境 
下 更 有 价值 。 针 对 要 解决 的 问题 ， 最 重要 的 是 数据 分 析 师 能 够 设计 和 实 
现 相应 的 分 析 方 法 , 一旦 其 中 出 了 差错 ， 数 据 分 析 丈 有 可 能 失去 价值 。 

那么 ， 有 具体 来 说 应 该 如 何 开 展商 业 数 据 分 析 呢 ? 虽然 各 种 数据 分 析 
染 构 互 有 异同 ,但 大 体 上 来 说 部 是 按照 下 面 的 结构 来 进行 的 。 

自 完 ， 逢 要 对 现状 和 预期 有 一 个 很 好 的 把 握 。 其 次 ， 弄 清 现状 和 预 
期 之 间 的 差距 ， 并 调查 导致 差距 产生 的 关键 因素 ， 即 发 现 问题 。 因 为 可 
能 有 多 个 这 样 的 因 系 ， 所 以 要 分 别 实施 数据 的 收集 和 加 工 ， 并 在 此 基础 
上 进行 数据 分 析 。 分 析 时 需要 对 分 析 对 象 的 结构 进行 分 解 ， 把 握 各 个 因 
素 的 影响 力 的 大 小 并 相互 比较 ， 从 而 确定 导致 差距 产生 的 最 关键 因素 。 
完成 上 述 过 程 之 后 ， 在 执行 解决 方案 的 过 程 中 ， 还 需要 考虑 人 力 成 本 和 
金钱 成 本 ， 提 出 解决 对 策 并 推进 。 
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总 之 ， 数 据 分 析 就 是 从 现状 出 发 ， 寻 找 一 条 可 以 达到 预期 的 最 短路 
径 ， 在 此 过 程 中 应 着 眼 于 找 出 主要 的 问题 ， 然 后 根据 下 面 的 染 构 来 解决 


这 些 问题 。 


现状 和 预期 





vv 


发 现 问 题 


数据 的 收集 和 加 工 


数据 分 析 


解决 对 策 





图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


12 | 第 2 章 商业 数据 分 析 流 程 


p 了 省 现状 和 预期 





那么 ， 什 么 是 数据 分 析 中 的 问题 呢 ? 

例如 ， 我 们 来 考虑 “有 茶 种 商品 销售 额 下 降 ” 这 种 现象 。 虽 然 销售 额 
是 下 降 了 ， 但 是 如 采 前 提 是 这 种 商品 并 不 是 该 公司 的 主打 产品 ， 并 且 最 
近 很 可 能 要 下 架 了， 那么 这 种 销售 额 的 下 降 并 不 是 什么 很 大 的 问题 。 相 
反 ， 如 宋 这 个 商品 的 销售 对 该 公司 的 收益 有 很 大 的 影响 ， 那 么 这 就 成 问 
题 了 。 

反之 ， 我 们 再 来 考虑 “ 某 种 商品 销售 额 上 升 ” 的 现象 。 一 般 看 来 ， 
销售 额 上 升 的 情况 貌似 并 没有 什么 问题 ， 但 是 如 果 前 提 是 “实际 上 商品 
的 销售 额 和 人 花 在 该 商品 上 的 广告 费 不 相称 ”， 那 么 这 里 面 就 有 问题 了 。 

由 此 可 见 ， 所 谓 的 “问题 ”其 实 是 随 着 当时 商业 环境 下 产生 的 “ 预 
期 ”而 变化 的 。 也 就 是 说 ， 有 了 “原来 的 预期 ”和 “现状 ”之 间 的 老 
中 ， 才 会 导致 问题 的 出 现 。 
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区 别 “ 现 象 和 “问题 
在 数据 分 析 中 ， 需 要 明确 地 区 分 “现象 ”和 需要 解决 的 “问题 "”。 





在 商业 活动 中 ,“ 销 售 额 下 降 ”" “顾客 流失 ”等 经 常会 被 作为 “ 问 
题 ” 提 出 ， 然 而 如 前 所 述 ， 在 数据 分 析 活 动 中 ， 这 些 只 不 过 是 “现象 ” 
而 已 。 重 要 的 是 基于 这 些 “ 现 象 "， 策 划 人 员 、 工 程 人 员 、 服 务 人 员 等 
相关 商业 负责 人 认真 地 讨论 并 发 现 需 要 解决 的 问题 (参照 下 表 )。 也 就 
是 将， 上 述 相关 负责 人 之 间 的 协作 对 于 有 效 的 数据 分 析 是 必 不 可 少 的 ， 
而 这 种 协作 ， 在 数据 分 析 的 过 程 中 经 党 用 “发 现 问题 ”来 表示 。 

只 有 相关 人 负 贡 人 部 了 解 了 “现状 ”和 “预期 ”的 情况 ,数据 分 析 的 
准备 工作 才 算 完成 。 这 样 才 可 以 通过 数据 分 析 来 寻找 造成 “现状 ”和 
“预期 ”之 间 差 距 的 原因 。 

















是 否 有 问题 


销售 额 比例 低 维持 现状 
销售 额 比例 高 | ”将 销售 额 恢复 到 良好 状态 





广告 费用 高 降低 广告 费用 
广告 费用 适当 维持 现状 


负 售 贪 中 天 
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怎样 才能 “发 现 问题 ”， 也 驶 是 找 出 具体 的 问题 点 呢 ?“ 牢 记 没有 问 
题 的 状态 = 预期 ”就 是 一 种 找 出 问题 所 在 的 有 歼 方法 。 所 有 的 当事人 都 
应 该 去 想 春 这 种 没有 问题 的 状态 ， 这 是非 党 重要 的 。 对 数据 分 析 来 说 ， 
“销售 额 上 升 / 下 降 ” 仅 仅 是 一 种 现象 。 而 通过 思考 “预期 ”， 并 理解 
“预期 ”和 “现状 ”之 间 差 距 的 构造 ， 则 有 助 于 找 出 根本 的 问题 。 











那么 ， 如 何 理解 “预期 ”和 “现状 ”之 间 的 差距 呢 ? 在 使 用 数据 分 
析 的 方法 中 ,， 通 篆 的 处 理 手法 是 首 匈 从 下 面 的 角度 来 观察 数据 。 


1 观察 数据 的 大 小 
2 将 数据 分 解 后 观察 
3 将 数据 比较 后 观察 





进行 数据 分 析 时 的 观察 角度 


从 3 个 角度 来 上 友 现 问题 





国 观 察 数据 的 大 小 

首 完 ， 针 对 “预期 ”和 “现状 ”之 间 的 差距 ,考虑 有 哪些 因 系 可 能 
会 导致 这 种 差距 ， 并 把 握 其 中 的 多 个 关键 因素 的 大 小 。 这 里 所 说 的 “大 
小 "， 指 的 是 各 因素 对 “现状 ”和 “预期 ”之 间 的 差距 的 影响 程度 。 

这 里 举 一 个 常见 的 关于 数据 分 析 的 失败 和 案例 。 
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“假如 我 们 对 可 能 导致 差距 的 其 中 一 个 因素 进行 了 详细 的 数据 分 析 ， 
并 讨论 出 了 填补 该 差距 的 解决 方案 以 及 具体 的 解决 措施 。 但 是 实际 上 ， 
该 因 系 对 于 原本 的 现象 的 影响 程度 非常 小 ， 这 样 一 来 ， 即 使 将 解决 措施 
付 诸 实施 ， 也 很 难 有 什么 效果 。” 

这 个 案例 失败 的 原因 在 于 “ 厂 面 地 断定 差距 的 主要 原因 ”。 事 十 
参与 讨论 的 人 数 较 少 的 情况 下 ， 往 往 通过 讨论 能 够 得 到 的 可 能 存在 的 原 
因 也 很 少 。 假 设 一 个 极 庙 的 情况 ， 如 打数 据 分 析 师 只 有 一 个 人 人， 那么 失 
败 的 概率 会 大 大 增加 。 也 就 是 说 ， 如 果 不 在 尽量 多 的 当事人 和 数据 分 析 
师 之 间 达 成 对 “预期 ”的 共识 ,那么 就 越 容易 出 现 缺 乏 商 业 价 值 的 分 析 
结果 。 

所 以 首先 我 们 需要 对 “预期 ”有 一 个 好 的 理解 ， 确 认 现 在 要 进行 分 
析 的 关键 因素 对 于 整体 有 多 大 的 影响 。 根 据 确认 的 绪 采 ， 如 条 该 因素 的 
影响 较 小 ， 那 么 束 可 以 判断 出 该 处 并 不 是 本 质 性 的 问题 ， 知 要 从 其 他 的 
角度 来 寻找 关键 的 因 系 。 








影响 大 影响 小 
关键 
因素 B 
关键 因素 A 关键 因素 C 
关键 
因素 DD 


先 估计 各 因素 的 影响 程度 


国 将 数据 分 解 后 观察 

“将 数据 分 解 后 观察 ” 指 的 是 从 多 种 角度 来 观察 所 发 生 的 现象 ， 分 
解 出 构成 这 种 现象 的 因素 ， 并 找 出 导致 这 种 现象 出 现 的 原因 。 在 分 解 的 
时 候 ， 必 须要 逐 循 MECE 的 原则 。 

MECE 是 下 面 4 个 单词 的 首 字母 缩写 。 
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e@ Mutually : 相互 性 

e@ Exclusive : 排 重 性 
e@ Collectively : 完整 性 
e@ Exhaustive : 全 面 性 


分 解 方法 有 很 多 种 ， 但 是 对 于 数据 分 析 来 说 比较 有 效 的 是 因数 分 解 


分 析 。 因 数 分 解 昕 起 来 好 像 比较 复杂 ,但 实际 上 就 是 四 则 运算 的 分 解 。 
比如 说 ， 对 销售 额 的 分 解 就 是 下 面 这 样 。 





销售 额 = 人 均 销 售 额 x 购 严 人 效 


所 以 ， 应 该 按照 下 述 方式 来 分 解 。 


要 提高 销售 额 ， 
哪 种 关键 因素 更 
容易 调控 ? 


购买 人 数 | 


销售 额 = 人 均 销 售 额 x 购买 人 数 





按照 上 述 的 MECE 方式 对 现象 进行 分 解 并 得 到 多 个 因素 ， 通 过 观察 
它们 的 时 间 序 列 变 化 图 ， 就 可 以 发 现在 什么 时 候 哪 个 因素 的 值 下 降 了 。 
这 种 情况 下 重要 的 是 区 分 是 “能 被 调控 的 因素 "， 还 是 “不 能 被 调控 或 
难以 调控 的 因素 ”。 而 在 进行 MECE 分 解 时 ， 重 要 的 是 通过 分 解 得 到 可 
调控 的 因素 。 

例如 ， 如 来 对 某 个 章鱼 烧 和 餐馆 的 销售 额 进行 分 解 后 得 到 了 “人 均 消 
费 额 ” 这 个 因 系 ,那么 也 就 能 够 得 到 这 个 因 系 的 时 间 序列 变化 ， 据 此 就 
能 够 发 现 每 次 都 要 吃 上 两 三 份 食物 的 大 食量 客人 变 多 了 或 者 变 少 了 这 种 
现象 。 但 是 ， 如 有 果 该 数值 下 降 了 ( 即 大 食量 的 客人 变 少 了 )， 那 么 这 种 
情况 下 要 想 通 过 “使 进 店 的 客人 每 人 都 吃 上 两 三 份 食物 ”来 你 证 销售 额 
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是 很 困难 的 。 也 就 是 说 ， 虽 然 观察 人 均 消 费 额 这 一 因素 的 时 间 序 列 变化 
是 有 意义 的 ， 但 是 这 个 因素 是 我 们 无 法 调控 的 。 如 打分 解 得 到 的 都 是 这 
样 的 因 系 ,那么 由 此 而 进行 的 数据 分 析 很 难 有 什么 效果 。 

相反 ， 如 果 在 经 过 MECE 分 解 后 得 到 的 各 个 因素 中 包含 能 够 人 为 调 
控 的 因 系 ， 并 且 该 因素 中 存在 问题 ， 那 么 即使 该 因 系 的 数值 在 不 断 地 上 
下 波动 ， 我 们 也 很 容易 找 出 问题 的 关键 所 在 ， 并 能 够 通过 有 效 的 数据 分 
析 找 到 快速 解决 的 方案 。 例 如 ， 针 对 某 个 章鱼 烧 和 餐馆 ， 当 我 们 发 现 该 餐 
馆 的 广告 费 和 吸引 到 的 顾客 人 数 之 间 的 因果 关系 时 ， 我 们 就 会 对 广告 投 
放 充 满 信 心 ， 此 时 “新 顾客 人 数 ” 就 会 是 “能 够 调控 的 因素 ”"。 当 新 顾 
客人 数 下 降 时 ， 我 们 就 可 以 知道 该 投放 多 少 广 告 以 使 得 新 顾客 的 人 数 回 
升 ， 并 能 够 很 快 地 具体 执行 。 


国 将 数据 比较 后 观察 

“将 数据 比较 后 观察 ” 指 的 是 将 发 生 问题 时 的 数据 和 没 发 生 问题 时 
的 数据 相互 比较 ， 并 找 出 问题 出 现 的 原因 。 

下 图 就 是 按 MECE 分 解 得 到 的 关于 销售 额 的 各 个 因素 。 最 好 时 期 的 
状态 ， 也 就 是 “预期 ”， 如 左 图 所 示 ， 而 “现状 ”如 右 图 所 示 。 例 如 ， 
当 销售 额 的 预期 和 现状 之 间 出 现 差距 时 ， 通 过 观察 这 张 图 就 可 以 看 出 ， 
因为 “购买 人 数 ” 下 降 ， 所 以 销售 额 才 会 下 降 。 像 这 样 ， 把 以 MECE 的 
方式 分 解 得 到 的 各 个 因素 进行 比较 ， 作 为 数据 分 析 的 一 个 切入 口 ， 是 必 
不 可 少 的 一 步 。 
































人 均 销 售 额 人 均 销 售 额 
1000 日 元 1000 日 元 
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进行 这 种 数据 比较 分 析 的 目的 是 达到 茶 种 程度 的 撩 型 化 处 理 。 首 
先 ， 在 使 用 时 间 序 列 进行 比较 的 情况 下 ， 可 以 把 过 去 的 数据 和 现在 的 情 
况 比 较 ， 如 下 所 示 。 





@ 昨天 和 今天 的 比较 
@ 上 周 和 这 周 的 比较 
e@ 同一 个 商业 活动 在 过 去 和 现在 的 情况 的 比较 


男 外 ， 有 时 还 需要 和 其 他 类 似 商 品 或 者 服务 的 数据 相 比 较 ， 例 如 : 


e 和 竞争 对 手 公司 的 销售 数据 相 比 较 
e@ 公司 内 部 的 服务 之 间 的 利益 比较 


而 分 析 用 户 属性 也 是 经 党 使 用 的 方法 ， 例 如 : 


@ 20 多 岁 和 50 多 岁 用 户 的 购买 欲 的 差异 ( 年 龄 段 差异 ) 
@ 男性 和 女性 的 购买 率 的 差异 ( 性 别 差 异 ) 
@ 关东 和 关 西 地 区 用 户 喜 好 的 颜色 和 形状 的 差异 ( 地 域 差异 ) 


像 这 样 ， 可 以 考虑 在 收集 到 的 用 户 属性 的 各 个 类 别 之 间 进 行 比 较 
(参照 第 4 章 )。 
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2 光 硬 数据 的 收集 和 加 工 





数据 收集 


在 明确 了 需要 解决 的 问题 之 后 ， 要 想 验证 这 些 问题 ， 就 需要 收集 必 
要 的 数据 。 在 数据 收集 时 ， 需 要 考虑 以 下 内 容 。 





e@ 为 了 验证 问题 ， 什 么 样 的 数据 是 必要 的 

e@ 这 些 必要 的 数据 保存 成 分 析 师 可 以 马上 使 用 的 形式 了 吗 

e@ 这 些 必要 的 数据 在 分 析 师 提出 申请 后 能 使 用 吗 

e@ 当 某 些 必 要 的 数据 没有 被 保存 时 ， 还 能 重新 获得 这 些 数据 吗 

e@ 当 某 些 必要 的 数据 没有 被 保存 ， 并 且 重 新 获得 这 些 数据 的 代价 太 
大 时 ， 有 没有 其 他 可 蔡 代 的 数据 





在 上 述 各 项 内 容 中 ， 除 第 一 条 之 外 ， 越 排 在 前 面 的 条 目 获 取 数 据 的 
代价 就 越 小 。 在 充分 考虑 效率 的 情况 下 ,分 析 师 首先 应 尽 可 能 地 使 用 手 
头 上 已 有 的 数据 、 马 上 可 以 利用 的 数据 或 者 申请 后 就 能 使 用 的 数据 来 完 
成 分 析 。 

如 果 和 觉得 在 进行 数据 分 析 后 新 获取 某 些 数据 会 有 很 好 的 商业 效 来 ， 
那么 也 可 以 考虑 去 新 获取 这 些 数据 。 然 而 ， 在 实际 的 数据 分 析 工 作 中 ， 
能 够 事先 预见 数据 重要 性 的 情况 并 不 多 见 。 即 使 是 重新 获取 了 这 些 数 
据 ， 也 会 导致 数据 收集 所 花费 的 成 本 大 大 增加 。 故 外 ， 由 于 需要 重新 设 
置 数据 收集 的 起 始 时 间 ， 这 就 使 得 无 法 和 过 去 的 现象 进行 对 比 。 并 且 在 
积累 充足 的 数据 之 前 ， 数 据 分 析 无 法 开始 等 问题 都 加 大 了 工作 的 难度 。 
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必要 数据 已 经 保存 下 来 的 情况 下 ， 一 般 有 3 种 存储 的 方式 : 文件 、 
数据 库 、Hadoop ( HDFS )。 


国 从 文件 中 读 取 数据 

当 数 据 以 文件 的 形式 保存 时 ， 多 以 CSV 以 逗号 作为 分 阳 符 ) 或 者 
TSV(〈 以 制 表 符 作为 分 隔 符 ) 的 格式 保存 。 数 据 分 析 时 ,就 从 这 些 文件 
中 对 必要 的 数据 进行 抽取 和 组 合 。 


CSV 文 件 TSV 文 件 
2014 T0000 Zo To OM oo 


2014-10-01, 121,... 2014-10-01 121 ... 





国 从 数据 库 中 读 取 数据 

除了 用 文件 来 保存 数据 ， 涉 及 商业 活动 的 数据 通常 使 用 数据 库 来 存 
储 。 数 据 库 有 很 多 种 ， 但 多 数 企 业 一 般 使 用 诸如 MySQL 等 的 RDBMS 
系统 来 保存 数据 。 数 据 分 析 师 可 以 通过 在 数据 库 中 执行 命令 (参照 后 文 
的 SQL 命令 ) 的 方式 来 获取 分 析 时 所 需 的 数据 。 











数据 库 中 数据 的 保存 形式 
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OO 


| SELECT 
log_date, a 
i 希望 获得 的 数据 的 属性 


sum(payment) 





| 


| 望 获得 的 数据 的 所 在 位 置 


' GROUP BY | 
' 组 统 : 十 各 
' log_date, user_id 分 组 统计 条 件 


使 用 SQL 命令 从 数据 库 中 抽取 所 需 数据 的 实例 


国 从 Hadoop ( HDFS ) 中 读 取 数据 

过 去 ， 商 业 数 据 的 收集 代价 很 大 。 然 而 近 些 年 来 ， 伴 随 着 信息 和 通 
信 技 术 的 发 展 ， 企 业 可 以 轻松 地 获取 数据 ， 因 此 数据 就 被 大 量 地 保存 了 
起 来 。 

在 这 样 的 背景 下 ， 过 去 所 使 用 的 数据 库容 量 有 限 ， 无 法 满足 大 量 数 
据 的 存储 。 为 了 解决 这 一 问题 ， 人 们 开始 考虑 使 用 中 间 件 。 数 据 的 使 用 
者 看 似 只 是 在 和 一 个 数据 库 打 交道 ， 而 背后 实际 上 是 一 个 能 够 连接 多 个 
数据 库 的 系统 。 

Hadoop 就 是 用 来 保存 所 谓 的 大 数据 的 。 企 业 为 了 手动 处 理 数 
据 ， 经 和 常 使 用 Hadoop 这 个 中 间 件 。 在 这 个 中 间 件 上 保存 的 数据 是 通过 
HDFS (Hadoop 分 布 式 文件 系统 ) 架构 来 管理 的 。 数 据 分 析 师 使 用 
Hadoop 命令 或 Hive 之 类 的 工具 ， 从 这 个 中 间 件 中 获取 分 析 必 需 的 


数据 。 


hladoon (HBEFS, 
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数据 加 工 


在 收集 好 分 析 所 必需 的 数据 后 ， 下 一 步 就 是 数据 加 工 了 。 在 一 般 的 
数据 分 析 教 科 书 中 ， 为 了 方便 理解 数据 分 析 的 方法 ， 使 用 的 都 是 适用 于 








该 分 析 方 法 的 数据 。 然 而 ， 在 实际 的 数据 分 析 过 程 中 ， 需 要 根据 使 用 的 
分 析 方 法 ， 目 己 动 手 来 加 工 这 些 数据 。 

根据 数据 分 析 的 目的 、 数 据 的 保存 状态 、 数 据 的 形状 等 的 不 同 ， 数 
据 加 工 的 方式 也 有 所 不 同 ， 因 此 需要 具体 情况 具体 分 析 。 在 实际 进行 数 
据 分 析 时 ， 能 否 较 好 地 完成 数据 加 工 是 一 个 关键 点 。 


国 数 据 的 整合 

大 多 数 的 分 析 方 法 都 要 求 在 要 分 析 的 一 块 数据 中 包含 所 有 和 希望 分 析 
的 信息 。 也 就 是 说 ， 要 将 多 块 需要 分 析 的 数据 整合 成 一 块 ， 但 是 这 些 数 
据 通 常 都 分 别 保 存在 各 自 的 文件 或 表格 当中 。 因 此 ， 为 了 完成 数据 的 整 
合 ， 如 采 数 据 存 储 在 数据 库 中 ， 就 使 用 SQL 命令 ; 如 果 存 储 在 文件 中 ， 
就 使 用 Excel 或 R 等 。 




















国生 成 用 于 判定 的 变量 

例如 ， 我 们 将 某 天 来 访问 的 用 户 的 数据 和 消费 数据 加 以 整合 ， 那 么 
那些 没有 消费 的 用 户 由 于 在 消费 数据 中 没有 记录 ， 将 不 会 被 整合 到 最 终 
的 数据 当中 。 在 这 种 情况 下 ， 可 以 新 创造 一 个 变量 ,该 变量 的 值 只 有 
已 消费 (1》/“ 未 请 费 (0 》” 两 个 标志 位 。 有 了 这 样 的 标志 位 ， 不 仅 可 
以 通过 “已 消费 的 标志 位 数 / 总 用 户 数 ”得 到 消费 率 ， 还 可 以 将 消费 标 
志 位 作为 因 变 量 建 立 相 应 的 模型 等 。 


国生 成 离散 变量 

例如 ,基于 某 天 每 个 用 户 的 消费 数据 ， 我 们 可 以 将 用 户 分 为 消费 金 
额 较 大 的 用 户 、 消 惕 金额 一 般 的 用 户 、 消 费 金 额 较 小 的 用 户 和 完全 不 请 
费 的 用 户 。 像 这 样 根据 数据 对 用 户 进 行 分 类 分 析 的 场景 很 常见 。 在 商业 
领域 ， 为 了 方便 在 数据 分 析 后 采取 相应 的 解决 对 宁 ， 需 要 像 这 样 将 连续 
数值 离散 化 。 在 这 种 情况 下 ， 我 们 以 某 个 金额 为 基准 ， 像 下 面 这样 生 成 
离散 化 的 定 类 变量 。 
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® 消费 金额 较 大 的 用 户 ( 1 ) 
e@ 消费 金额 一 般 的 用 户 ( 2 ) 
e 消费 金额 较 小 的 用 户 ( 3 ) 
e@ 完全 不 消费 的 用 户 ( 4 ) 





通过 生成 这 样 的 变量 ,就 可 以 进行 各 种 各 样 的 分 析 。 例 如 ， 通 过 
“ 东 一 天 的 请 费 总 金额 /消费 人 的 定 类 变量 *"， 就 可 以 得 到 按照 消费 金额 
大 小 分 成 的 4 类 用 户 中 每 类 用 户 的 平均 消费 金额 也 可 以 基于 消费 人 的 
定 类 变量 进行 交叉 列表 统计 ， 甚 至 可 以 进行 数据 建 模 等 工作 。 
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2 数据 分 析 








到 目前 为 止 ， 我 们 介绍 了 “现状 和 预期 的 整理 ” “问题 的 定义 和 发 
现 ” “具体 的 数据 收集 和 加 工 ” 这 些 内 容 。 如 果 依 次 很 好 地 完成 了 上 述 
工作 ， 下 一 步 就 是 数据 分 析 了 。 在 商业 数据 分 析 中 ， 根 据 问题 种 类 的 不 
同 ， 大 致 分 为 “决策 支持 ”和 “自动 化 . 最 优化 ”两 大 类 。 

首先 , “决策 支持 ”的 目的 是 帮助 用 户 做 出 决策 并 执行 。 因 此 ， 人 
们 能 够 理解 并 做 出 恰当 的 判断 是 最 重要 的 。 在 进行 以 “决策 支持 ”为 主 
的 数据 分 析 时 ， 相 较 于 那些 高 级 复杂 的 分 析 模 型 ， 简 单 且 易 于 理解 的 分 
析 模 型 更 有 效果 ， 所 以 这 种 情况 下 经 常 使 用 简单 求 和 或 交叉 列表 。 

另 一 方面 ,“ 自 动 化 : 最 优化 ”的 目的 是 帮助 用 户 构 建 让 计算 机 执 
行 问 题解 决 方案 的 算法 。 因 此 ， 相 较 于 易于 理解 性 ， 更 重视 算法 的 计算 
量 和 精度 。 





决策 支持 自动 化 .最 优化 
目的 支持 人 们 的 行为 决策 支持 计算 机 的 行为 
目标 降低 沟通 成 本 提高 预 估 精 度 ， 降 低 计算 量 
常用 的 方法 简单 求 和 、 交 叉 列 表 机 器 学 习 、 构 建 算法 














有 助 于 决策 支持 的 统计 分 析 


对 决策 文 持 有 效 的 数据 分 析 ， 基 本 上 都 是 简单 求 和 或 者 交叉 列表 之 
类 的 数据 分 析 。 这 类 分 析 简 单 且 易 于 理解 ， 分 析 师 和 商业 负责 人 沟通 起 





图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


2.5 数据 分 析 | 25 


来 的 成 本 较 低 。 除 此 之 外 ， 有 时 还 会 基于 统计 分 析 建 立 预测 模型 。 预 测 
模型 能 够 明确 “什么 样 的 因素 会 对 绪 果 产生 什么 样 的 影响 ”这 样 的 因果 
关系 ， 因 此 有 助 于 决策 文 持 。 例 如 ， 通 过 建立 一 个 用 广告 因素 来 解释 销 
售 额 结 灯 的 模型 ， 丈 能 够 得 到 一 个 预测 模型 ， 预 测 投放 多 大 金额 的 广告 
可 以 囊 来 多 大 程度 的 销售 额 增长 。 顺 便 解 释 一 下 ， 在 统计 分 析 中 ， 上 例 
中 的 销售 额 ， 即 被 预测 的 数值 称 为 “ 因 变 量 "”， 而 广告 费 等 用 于 解释 预 
测 的 因 系 称 为 “ 自 变 量 ”。 

男 外 ， 在 事前 调研 阶段 ， 如 果 引 发 问题 现象 的 因 系 很 复杂 ， 则 需要 
建立 一 个 由 多 个 因 系 组 成 的 预测 模型 。 什 助 这 个 模型 我们 可 以 观察 一 
个 因素 的 变化 会 给 整体 市 来 什么 样 的 变化 。 此 时 可 以 使 用 各 种 多 重 回 归 
分 析 法 〈 第 6 章 ) 或 者 协 方差 结构 分 析 法 。 回 归 分 析 类 的 数据 分 析 方 法 
相对 来 说 沟通 成 本 较 低 ， 且 易于 传达 。 协 方差 结构 分 析 类 的 复杂 分 析 需 
要 数据 分 析 师 对 整个 方法 的 构造 非常 了 解 ， 仅 使 用 简单 求 和 或 者 交叉 列 
表 的 方式 来 传达 主要 的 部 分 。 


车 速 与 停车 距离 之 间 的 关系 























车 距离 


Er 
二 
\ 


人 


» 








多 重 回 归 分 析 的 示意 图 协 方差 结构 分 析 的 示意 图 


有 助 于 自动 化 最 优化 的 机 器 学 习 


“有 助 于 决 宋 文 持 的 统计 分 析 ” 所 关注 的 重点 是 “什么 能 有 效 地 提 
升 销售 额 ”等 问题 ， 而 对 此 进行 详细 的 分 析 则 是 “ 目 动 化 最 优化 ”的 
目的 。 

例如 ,“ 这 个 数值 大 于 10 的 话 ， 就 会 大 大 提升 商品 被 购买 的 概率 ” 
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这 类 论断 大 都 需要 从 最 优化 的 逻辑 出 发 来 验证 。 更 进一步 ， 我 们 可 以 推 
测 出 “ 哪 种 类 型 的 消费 者 更 容易 购买 哪 种 商品 ”这 种 个 人 购买 行为 。 举 
个 著名 的 例子 ， 电 商 亚马逊 就 提供 了 “ 购 灭 此 商品 的 顾客 也 同时 购买 ” 
的 推荐 功能 。 

此 时 机 奋 竺 习作 为 一 种 强 有 力 的 数据 分 析 方 法 ， 经常 被 用 来 处 理 
过 去 积攒 下 来 的 日 志 数 据 。 这 些 数据 的 量 往往 很 大 ， 人 们 很 难 用 肉眼 
去 发 现 其 中 的 模式 或 者 规律 。 然 而 ， 机 带 学 习 却 能 够 从 数据 中 学 习 出 
其 本 喘 包 含 的 模式 或 者 规律 ， 并 以 此 来 建立 模型 。 基 于 这 个 模型 ， 就 
能 够 从 用 户 购 买 行为 的 规律 出 发 ， 目 动 地 加 每 个 用 户 提供 他 们 各 目 需 
要 的 商品 。 





























6 ov, 用 户 行为 数据 库 加 用 户 行为 
input 
1 input 
Output 
8 @ 利用 用 户 行为 数据 
S 
Q) 取得 用 户 行为 数据 


推荐 模型 的 示意 医 
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数据 分 析 的 最 后 一 步 就 是 基于 分 析 的 结 琳 来 判断 是 否 需 要 采取 相应 
的 解决 对 案 。 

这 里 的 解决 对 策 有 两 个 意思 :“ 人 们 做 出 决策 并 着 手 开始 做 某 事 或 者 
停止 做 某 事 ”和 “构建 用 于 执行 解决 对 策 的 算法 并 在 计算 机 上 运行 ”。 
这 两 个 意思 分 别 和 之 前 介绍 数据 分 析 时 提 到 的 “ 决 抹 支持 ”和 “自动 
化 … 最 优化 ”相对 应 。 

这 二 者 在 执行 之 前 的 沟通 成 本 上 是 有 差 卉 的 。 沟 通 成 本 中 大 部 分 是 
说 服 他 人 的 成 本 ,要 说 服 的 有 上 司 、 案 划 人 员 、 开 发 人 员 或 者 运 维 人 
员 。 在 多 数 的 组 织 机 构 中 ,“ 决 策 文 持 ” 的 说 服 成 本 主要 花 在 上 司 或 者 
策划 人 员 上 ， 而 “ 目 动 化 * 最 优化 ”的 说 服 成 本 则 大 都 花 在 开发 人 员 或 
运 维 人 员 上 。 



































数据 分 析 的 成 果 沟 通 数据 分 析 的 成 果 沟 通 








i 数据 分 析 负 责 人 i 数据 分 析 负 责 人 
决策 支持 的 情况 下 自动 化 * 最 优化 的 情况 下 
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因此 ,无论 是 哪 种 解决 对 策 ， 都 需要 在 对 其 改善 或 实施 的 费用 和 效 
果 进 行 评估 的 基础 上 决定 是 否 执行 。 经 种 遇 到 的 情况 是 ， 我 们 知道 需要 
改善 的 因 系 ， 也 估算 了 所 需 的 开发 成 本 ， 但 是 却 无 法 判断 具体 执行 该 解 
决 对 案 后 会 有 什么 样 的 效 琳 。 也 就 是 说 ， 在 完成 了 数据 分 析 后 ,经常 需 
要 面 对 如 何 将 预测 的 效果 具体 化 、 执 行 风 险 最 小 化 的 问题 。 

在 这 种 情况 下 ， 数 据 分 析 师 就 能 够 给 我 们 提供 帮助 。 例 如 ,使 用 分 
析 时 建立 的 预测 模型 来 进行 模拟 仿真 。 如 果 过 去 的 数据 在 未 来 也 能 够 复 
现 ， 那么 就 提示 所 预 估 的 具体 效果 有 多 大 。 在 采取 解决 对 策 时 ， 未 来 将 
要 面临 的 情况 不 可 能 和 过 去 完全 一 致 ， 所 以 一 并 提示 会 出 现 多 大 的 侦 差 
也 很 重要 。 
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小 结 








到 目前 为 止 ， 商 业 数据 分 析 的 框 砍 我 们 就 介绍 完了 。 但 谈 者 不 一 定 
要 完全 遵循 这 个 步骤 ， 也 不 一 定 必 须 按照 我 们 介绍 的 顺序 来 做 。 然 而 ， 
有 一 定 经 验 的 数据 分 析 师 大 都 会 有 意 无 意 地 灵活 运用 这 个 框 娘 。 

例如 ， 在 “发 现 问题 ”的 讨论 中 ， 有 经 验 的 数据 分 析 师 总 能 意识 到 
“这 个 数据 有 吗 ?”“ 这 里 的 数据 能 收集 到 吗 ?”“ 如 采 收 集 不 到 ， 那 么 能 
用 这 个 数据 答 代 吗 ?” 这 类“ 数据 收集 ”的 问题 ， 以 及 “因为 要 用 这 种 
方法 来 分 析 这 个 数据 ， 所 以 有 必要 收集 之 前 的 这 个 数据 ”这 类 “数据 分 
析 ” 的 问题 。 

在 讨论 中 应 充分 探讨 这 些 问题 ， 并 确认 是 否 达 成 了 共识 。 为 外 ， 即 
使 在 讨论 过 后 ， 也 可 以 通过 别 的 方式 来 探讨 如 何 收集 尚未 保存 的 数据 。 

这 些 可 以 说 部 是 随 着 数据 分 析 师 个 人 经 验 的 增加 而 积累 的 技巧 。 实 
际 上 ， 关 于 “现状 和 预期 ”的 概念 ， 与 其 让 数据 分 析 师 来 考虑 ， 不 如 让 
末 划 、 开 发 或 者 运 维 的 相关 人 员 ， 也 就 是 数据 分 析 的 委托 人 来 考虑 ， 这 
样 也 有 助 于 数据 分 析 的 顺利 进行 。 总 之 ， 委 托 人 和 分 析 师 需要 对 数据 分 
析 的 预期 达成 共识 ， 认 真 进 行 数据 分 析 ， 以 得 出 切实 可 行 的 方案 ， 这 是 
商业 数据 分 析 里 最 为 重要 的 部 分 。 做 好 这 部 分 工作 就 是 轻松 提升 数据 分 
析 歼 末 的 方法 论 。 
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R 语 言 入 门 





介绍 


需要 先 学 习 使 用 R 语言 。R 语言 是 可 以 免费 使 用 的 。 下 面 我 们 为 了 





从 第 3 章 开始 ， 读 者 将 体验 到 数据 分 析 的 整套 流程 ， 所 以 现在 
语言 的 初学 者 


3 个 基本 的 操作 。 


e 有 语言 的 安 交 





i 


e@ 如 何 确认 保存 分 析 数 据 的 地 方 
eR 语 


[| 


的 扩展 功能 ( 程序 包 ) 的 使 用 方法 


※ 另外 ， 由 于 本 书 并 不 是 及 语言 的 解说 书 ， 因 此 各 章 的 代码 解说 
中 并 不 会 提供 关于 及 


二 


各 言 细 节 的 详细 说 明 。 有 关 代 码 的 解释 仅 
限于 数据 分 析 和 数据 解释 所 必要 的 最 小 范围 内 。 读 者 在 阅读 本 书 
时 也 不 要 太 拘 泥 于 细节 。 
R 语 言 的 安 闪 
关于 及 语言 的 安装 


ee 


[| 





网 上 有 很 多 资料 介绍 。 读 者 可 以 根据 目 己 


语言 (ver. 3.0.2 ) 来 


使 用 的 开发 环境 ， 选 择 安装 Windows 版 、Mac 版 或 者 Unix 版 。 
启动 R 语言 程序 后 会 显示 下 面 的 界面 (下面 会 使 用 Mac 版 的 了 
介绍 ， 








Windows 版 等 其 他 版 本 也 都 一 样 )。 从 第 
3 章 开 始 ， 在 图 中 的 “R Console” 中 输入 每 章 末 的 代码 ， 就 能 够 体 
验 各 章 案例 学 习 中 的 数据 分 析 。 
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展 RGui (64-bit) » we 
Fle Edit View Misc |Packages| Windows Help 


‘RR Console 


R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86 64-w64-mingw32/x64 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license{()' or 'licence()' for distribution details. 


R is a collaborative project with many contributors. 
Type 'contributors{()' for more information and 
'citation{()' on how to cite R or R packages In publications. 


Type 'demo{)' for some demos, 'help{()' for on-line help, or 
'help.start()' for an HIML browser interface to help. 


Type 'q()' to quit R. 
所 一 一 从 这 里 开始 输入 ] 
Windows 版 的 界面 





@@Oe@ R Console 


全 有 向 8 固 OO” 己 


R version 3.3.2 (2016-10-31) -- "Sincere Pumpkin Patch" 
Copyright (C) 2016 The R Foundation for Statistical Computing 
Platform: x86_64-apple-darwin13.4.0 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 

You are welcome to redistribute it under certain conditions. 

Type 'license()' or 'licence()' for distribution details. 
Natural language support but running in an English locale 

R is a collaborative project with many contributors. 

Type 'contributors()' for more information and 

'citation()' on how to cite R or R packages in publications. 

Type 'demo()' for some demos, 'help()' for on-line help, or 

"help.startO)" for an HTML browser interface to help. 

Type “q(C ”to quit R. 

[R.app GUI 1.68 (7288) x86_64-applLe-darwin13.4.0] 


[History restored from /Users/sumomoharuji/.Rapp.history] 


二 一 从 这 里 开始 输入 ' 
Mac 版 的 界面 





如 何 确认 保存 分 析 数 据 的 地 方 
R 语言 里 ， 需 要 将 要 分 析 的 数据 保存 在 某 个 地 方 。 读 者 可 以 通 
过 输入 下 面 图 中 的 命令 来 确定 数据 该 保存 在 何 处 。 
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>getwd () 


在 下 面 的 例子 中 ， 目 录 /Users/sumomoharuji/ 既是 数据 的 保 
存 位 置 ， 也 是 及 语言 的 当前 工作 目录 。 


人 R Console 


EF EE = 








R version 3.2.1 (2015-06-18) -- "World-Famous Astronaut” 
Copyright (C) 2015 The R Foundation for Statistical Computing 
Platform: x86_64-apple-darwin13.4.0 (64-bit) 


R is free software and comes with ABSOLUTELY NO WARRANTY. 
You are welcome to redistribute it under certain conditions. 
Type 'license()' or 'licence()' for distribution details. 


Natural language support but running in an English locale 


R is a collaborative project with many contributors. 
Type 'contributors()' for more information and 
"citation()' on how to cite R or R packages in publications. 


Type 'demo()' for Some demos, "helLp()”for on-line help, or 
"help.startO)"' for an HTML browser interface to help. 
Type 'qO)" to quit R. 


[R.app GUI 1.66 (6956) x86_64-apple-darwin13.4.0] 


> getwd() 本 一 一 一 一 一 一 一 | > getwd() 
‘sens/sumomonam Wl ‘JUsers/sumomoharuji" 





R 语 言 的 扩展 功能 的 使 用 方法 

R 语言 包含 语言 本 身 和 其 他 的 程序 包 。 把 这 些 程序 包 下 载 到 目 
己 的 计算 机 中 并 进行 设置 ， 就 可 以 扩展 R 语言 本 里 的 功能 。 这 些 程 
序 包 是 由 全 志 界 的 R 语言 用 户 开发 出 来 的 数据 人 处理 工具， 面 呵 所 有 
人 公开 。 通 过 运行 命令 install .packages (XXX) 就 能 够 将 XXX 这 
个 工具 下 载 到 上 自己 的 计算 机 里 ， 且 不 需要 指定 下 载 保存 路 径 等 具体 
言 息 ， 就 可 以 使 用 这 个 工具 。 每 台电 脑 只 需要 下 载 一 次 ， 之 后 就 可 
以 一 直 使 用 了 。 例 如 ， 安 装 工 具 ggplot2 的 操作 如 下 所 示 。 
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@ 更 仙 | 证 训 = 二 昕 党) 全 | 国 CRAN mirror 
| Co = iem 
2 1 0-Cloud [https] 
0-Cloud 
R version 3.2.1 (2015-06-18) -- "World-Famous Astronal 
Copyright (C) 2015 The R Foundation for Statistical Ci a 
platform: x86_64-apple-darwin13.4.0 (64-bit) Algeria 
Argentina (La Plata) 


Algeria [https] 


R is free software and comes with ABSOLUTELY NO WARRANTY. Australia (Canberra) [https] 
You are welcome to redistribute it under certain conditions. Australia (Canberra) 

Type 'license()' or 'licence()' for distribution details. Australia (Melbourne) [https] 
Australia (Melbourne) 
Australia (Perth) [https] 

R is a collaborative project with many contributors. Austria [https] 

Type 'contributors()' for more information and Austria 

"citation()” on how to cite R or R packages in publications. Belgium (Antwerp) 


Type ‘demo()' for some demos, 'help()' for on-line help, or Belgium (Ghent) [https] 
'help.startO)' for an HTML browser interface to help. Belgium (Ghent) 
Type 'qO)' to quit R. Brazil (BA) 
razil (PR) 
[R.app GUI 1.66 (6956) x86_64-d> installpackages("ggplot2") _ razil (RJ) [https] 
一 为 了 在 这 个 对 话 中 使 用 ， 请 选择 CRAN 中 的 镜像 网 站 一 razil(RJ) 


razil (SP 1) [https] 


Natural language support but running in an English locale 





[History restored from /Users/ 


> install.packages("ggplot2") 
--- Please select a CRAN mirror for use in this session --- Cancel RE 


PR 


输入 instal1.packages 命 人 CRAN mirror 的 选择 画 
选择 一 个 中 国 的 镜像 站 点 本 分 大 后 和 总 击 “确定 ”， 下 载 束 开始 了 O 


> loreaey (XE) 


然后 ， 通 过 执行 上 述 命令 ， 就 可 以 在 上 自己 的 计算 机 上 使 用 他 
人 开发 的 ae 了 。 需 要 强调 的 是 ， 要 想 使 用 
library (XXX) 命令 ， 就 必须 先 执行 jnstall .packages 命令 将 程 
ee 在 执行 上 面 的 命令 时 ， 如 果 出 现 了 
错误 ， 大 都 是 因为 “未 下 载 程序 包 ”， 此 时 只 要 再 次 执行 上 述 命 
令 即 可 。 在 每 次 启动 R 之 后 都 需要 执行 1iprary (XXX) 命令 来 加 载 
程序 包 。 
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R Console 


©O@e® 
@R 和 UE |S 


downloaded 786 KB 

trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
reshape2_1.4.2.tgz"' 

Content type ‘application/x-gzip' length 202343 bytes (197 KB) 

downloaded 197 KB 

trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
scales_0.4.1.tgz" 

Content type ‘application/x-gzip' length 307642 bytes (380 KB) 

downloaded 300 KB 

trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
tibble_1.2.tgz" 

Content type ‘application/x-gzip' length 294193 bytes (287 KB) 

downloaded 287 KB 

trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
lazyeval_0@.2.0.tgz' 

Content type ‘application/x-gzip' length 122487 bytes (119 KB) 

downloaded 119 KB 

trying URL ‘https://cloud.r-project.org/bin/macosx/mavericks/contrib/3.3/ 
ggplot2_2.2.1.tgz" 

Content type ‘application/x-gzip' length 2760842 bytes (2.6 MB) 
downloaded 2.6 MB 


The downloaded binary packages are in 
/var/folders/gq/cx6w515didz952b123xw9mvh@@00gn/T//RtmpxkO2mD/ 


downloaded_packages 
> libraryCggplot2) download_ packages 


> library(ggplot2) 
> 


本 书 从 第 3 革 开 始 会 经 常 使 用 下 面 这 9 个 工具 


照 上 述 方法 先行 下 载 。 


plyr ggplot2 scales reshape2 foreach 


rpart partykit randomForest caret 
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[分析 基础 ] 篇 


第 3 章 
案例 @ 一 柱状 图 


为 什么 销售 额 会 减少 


社交 游戏 的 销售 额 分 析 

一 款 叫 作 《 黑 猫 拼图 》 的 社交 游戏 本 月 的 销售 额 相 较 于 上 月 
有 所 下 滑 ， 于 是 想 调查 下 滑 的 原因 ， 并 提升 销售 额 ， 该 怎么 
做 呢 ? 
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< 区 国 现状 和 预期 








在 本 书 中 ， 我 们 假设 某 个 社交 游戏 公司 有 一 球 叫 作 《 黑 猫 拼 图 》 的 
游戏 ， 并 以 此 为 例 进 行 解说 。 

《 黑 猎 拼图 》 是 一 球 很 常见 的 益 贸 类 游戏 ， 玩 家 通过 移动 画面 下 半 
部 分 的 彩色 巷 块 ， 使 得 一 条 线 上 的 砖 块 颜色 一 致 ， 此 时 画面 上 半 部 分 的 
蘑 狂 就 会 攻击 敌人 。 这 球 游 戏 只 能 在 贸 能 手机 上 操作 ， 而 且 作 为 主人 公 
的 黑 猎 设计 得 非 第 可 爱 ， 因 此 在 女性 用 户 中 有 着 相当 高 的 人 气 ， 并 成 为 
了 这 个 游戏 公司 的 主打 应 用 之 一 。 














《 黑 猫 拼图 》 


这 个 游戏 的 销售 额 之 前 一 下 保持 着 稳定 的 增长 ， 然 而 这 个 月 却 下 降 
了 。 无 论 是 从 市 场 环境 还 是 从 游戏 本 里 的 状态 来 看 ， 这 个 游戏 的 销售 额 
都 还 有 继续 增长 的 空间 ， 因 此 销售 人 额 下 降 就 成 了 该 游戏 公司 的 一 个 大 问 
局 ， 于 是 开发 部 就 委托 数据 分 析 的 负责 人 来 探 明 原因 并 制定 对 策 。 下 
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面 ， 我 们 就 开始 数据 分 析 吧 。 


228 万 
211 万 






200,000- 


150,000- 


100,000- 


total.payment (JPY) 


50,000- 





| | 
2013-06 2013-07 
log_month 


《 黑 猫 拼图 》 的 销售 额 比 较 ( 上 月 /本 月 ) 


自 先知 要 整理 出 现状 和 预期 。 从 上 图 可 以 看 出 ， 和 上 月 相 比 本 月 的 
销售 额 确实 下 降 了 。 这 里 的 “现状 ” 指 的 就 是 “和 上 月 相 比 本 月 的 销售 
祷 下 降 了 ”。 而 无 论 是 从 市 场 环 境 还 是 游戏 本 里 的 状态 来 看 ， 这 个 游戏 
的 销售 额 还 有 继续 增长 的 空间 。 也 就 是 说 ， 本 来 的 预期 是 “希望 能 够 确 
保 和 上 月 相同 的 销售 额 ”。 


预期 










销售 额 恢复 
到 同上 月 一 样 


的 水 平 
现状 > | 


同上 月 相 比 
销售 额 下 降 了 
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发 现 问题 








首先， 为 了 明确 现状 和 预期 之 间 的 差距 具体 表现 在 哪里 ,我 们 需 
要 知 掉 本 月 和 上 月 相 比 有 哪些 地 方 不 同 。 在 这 个 阶段 ， 重 要 的 是 从 大 局 
出 发 来 卷 量 ， 而 不 是 局 限于 数据 分 析 的 范畴 。 例 如 ， 可 以 答 试 进行 下 述 
假设 。 

作为 可 能 导致 销 售 祝 减 少 的 原因 ， 上 月 和 本 月 的 不 同 之 处 有 以 下 
两 点。 











1. 在 商业 宣传 上 存在 问题 
2. 每 月 以 不 同 的 主题 开展 的 游戏 活动 存在 问题 








提出 假设 后 ， 接 下 来 就 应 该 尽量 用 倘 单 的 方法 来 大 致 验证 一 下 。 通 
过 咨询 市 场 部 和 游戏 开发 部 ， 得 到 了 以 下 信息 。 








1. 由 于 预算 的 缘故 ， 和 上 月 相 比 ， 本 月 并 没有 开展 那么 多 的 商业 宣 
传 活动 
2. 游戏 活动 的 内 容 和 上 月 相 比 几乎 没有 变动 


根据 第 2 条 的 内 容 可 知 ， 游 戏 活动 的 内 容 相 比 之 前 没有 大 的 变化 ， 
那么 原因 很 可 能 是 第 1 条 假设 一 一 “商业 宣传 力度 不 够 导致 了 销售 额 下 
降 "。 更 进一步 来 说 ， 巾 于 商业 宣传 活动 减少 了 上， 因此 就 很 难 有 更 多 的 
人 了 解 公 司 产品 ， 产 品 也 就 很 难 获 得 新 的 用 户 。 像 这 样 ， 通 过 数据 确认 
了 新 用 户 数 量 的 减少 和 销售 人 额 下 降 之 间 的 关系 ， 接 下 来 我 们 就 来 思考 如 
何 恢复 销售 额 。 
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e 尼 名 效 据 的 收集 和 加 工 








探讨 分 析 所 需 的 数据 
确定 了 要 分 析 的 主题 后 ， 就 需要 探讨 一 下 分 析 所 需 的 数据 了 。 
在 本 例 中 ， 我 们 需要 哪些 数据 呢 ? 
这 里 我 们 提出 的 假设 如 下 所 示 。 


@ 和 上 月 相 比 ， 本 月 的 销售 额 减少 了 ( 事实 ) 
@ 本 月 的 商业 宣传 活动 相 比 上 月 减少 了 ( 事实 ) 
因此 ， 新 用 户 的 数量 也 减少 了 ( 假设 ) 

A 解决 方案 ， 


e@ 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 


基于 这 个 假设 ， 为 了 加 快 问题 的 解决 ， 让 我 们 整理 一 下 分 析 的 


过 程 。 


1.《 黑 猫 拼图 》 游 戏 的 销售 额 相 比 上 月 减少 了 ( 事实 ) 
2. 通过 观察 销售 额 的 构成 ， 发 现 新 用 户 市 来 的 销售 额 减少 了 ( 假设 ) 
3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 解决 方案 ) 





要 想 完成 上 述 流程 ， 需 要 知道 《 黑 猫 拼图》 游戏 销 售 额 的 构成 。 为 
此 ， 以 下 数据 是 必 不 可 少 的 。 
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@ DAU ( Daily Active User， 每 天 至 少 来 访 1 次 的 用 户 数据 ) 
eDPU(Daily Payment User， 每 天 至 少 消 费 1 日 元 的 用 户 数据 ) 
e@ Install ( 记录 每 个 用 户 首 次 玩 这 个 游戏 的 时 间 的 数据 ) 











男 外 ， 对 于 上 述 3 部 分 数据 ， 具 体 需 要 收集 的 内 容 如 下 所 示 。 


@ DAU 


数据 内 容 数据 类 型 R 语言 中 的 标识 


访问 时 间 string ( 字符 串 ) log_data 


应 用 名 称 string ( 字符 串 ) app_name 
用 户 ID int ( 数值 ) User id 














@DPU 
数据 内 容 数据 类 型 R 语言 中 的 标识 


消费 日 期 string ( 字符 串 ) log_data 





应 用 名 称 string ( 字符 串 ) app_name 
用 户 ID int ( 数值 ) user id 
消费 额 int ( 数值 ) Payment 














@@ Install 


数据 内容 数据 类 型 R 语言 中 的 标识 
c= 


米 
首次 使 用 的 日 期 strind.( 这 


开 
符 串 ) install_data 











应 用 名 称 string ( 字符 串 ) app_name 
用 户 ID int ( 数值 ) user_id 


作为 基本 的 日 志 数 据 ， 这 些 数据 每 天 都 会 被 累积 并 存储 起 来 。 
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收集 分 析 所 需 的 数据 


国 读 入 分 析 所 需 的 数据 文件 

在 确定 了 分 析 所 和 需 的 数据 对 象 后 ， 下 一 步 需 要 考虑 的 束 是 具体 的 数 
据 收 集 了 。 在 本 例 中 ， 各 种 数据 都 以 csv 文件 的 格式 保存 在 服务 条 上 。 
为 了 能 用 分 析 工 具 R 语言 来 处 理 这 些 文件 ， 站 先知 要 读 入 这 些 数 据 。 


国 确 认 各 种 数据 的 格式 
我 们 需要 先 确 认 从 csv 文件 中 恋 入 的 各 种 数据 的 内 容 。 





@ DAU ( 每 天 至 少 来 访 1 次 的 用 户 数据 ) -个 
访问 时 间 应 用 名 称 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 


























原始 的 DAU 数据 里 包含 了 《 黑 猎 拼图》 游戏 所 有 用 户 的 数据 。 我 
们 以 上 表 中 浅 灰 色 那 行为 例 来 介绍 一 下 数据 的 内 容 。 该 行 表示 “2013 年 
6 月 1 日 ID 为 116 的 《 黑 猫 拼图 》 洲 戏 用 户 玩 了 这 个 洲 戏 "。 每 天 玩 
《 黑 猫 拼图》 游戏 的 全 部 用 户 的 ID 都 在 这 份 数据 里 。 


@ DPU ( 每 天 至 少 消费 1 日 元 的 用 户 数 据 ) 
访问 时 间 应 用 名 称 用 户 ID 消费 额 / 日 元 
2013 年 6 月 1 日 《 黑 猫 拼图 》 


2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
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访问 时 间 应 用 名 称 
2013 年 6 月 1 日 《 黑 猪 拼图 》 





2013 年 6 月 1 日 《 黑 猫 拼图 》 











DPU 数据 仪 包 含 了 在 游戏 中 发 生 消费 行为 的 用 户 及 其 消费 金额 。 以 
数据 内 容 的 第 1 行为 例 ， 它 表示 “2013 年 6 月 1 日 ID 为 351 的 用 户 支 
付 了 1333 日 元 ”"。 男 外 ， 正 如 上 述 数 据 所 示 ， 这 里 保存 的 是 用 户 从 游戏 
开始 到 结束 所 消费 的 金额 ， 所 以 当 同 一 个 用 户 同一 天 多 次 访问 游戏 时 ， 
每 一 次 的 消费 金额 数据 都 会 被 记录 下 来 。 


@ Install ( 记录 每 个 用 户 首 次 玩 这 个 游戏 的 时 间 的 数据 ) 
首次 使 用 的 日 期 应 用 名 称 
2013 年 4 月 15 日 《 黑 猫 拼图 》 
2013 年 4 月 15 日 《 黑 猫 拼图 》 
2013 年 4 月 15 日 《 黑 猫 拼图 》 
2013 年 4 月 15 日 《 黑 猫 拼图 》 
2013 年 4 月 15 日 《 黑 猫 拼图 》 
2013 年 4 月 15 日 《 黑 猫 拼图 》 





























最 后 介绍 的 Install 数据 记录 了 每 个 用 户 于 何 年 何 月 何 日 首次 玩 这 个 
游戏 。 以 上 表 中 第 1 行 的 数据 为 例 ， 它 表示 “ID 为 1 的 用 户 在 2013 年 
4 月 15 日 第 一 次 玩 《 黑 猫 拼图 》 游 戏 ”。 





现在 我 们 收集 了 玩 过 《 黑 猎 拼图》 游戏 的 用 户 信息 (DAU )、 消 费 
信息 (DPU ) 和 首次 使 用 日 期 的 信息 ( Install )。 从 现在 开始 我 们 要 对 数 
据 进行 加 工 ， 使 其 能 够 应 用 于 数据 分 析 。 
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把 初始 数据 加 工整 理 成 可 供 分 析 的 数据 ， 这 一 过 程 称 为 “前 期 处 
理 "。 为 了 配合 各 种 分 析 方 法 ， 我 们 需要 将 数据 加 工 成 可 供 这 些 分 析 方 
法 使 用 的 形式 。 每 种 分 析 方 法 所 需 的 数据 格式 可 能 和 都 不 一 样 ， 这 就 需要 
我 们 根据 所 使 用 的 分 析 方 法 来 确定 如 何 加 工效 据 。 

男 外 ,一些 数 据 分 析 方 法 对 于 噪声 数据 比较 敏感 。 如 果 使 用 这 类 分 
析 方 法 ， 那 么 还 需要 将 噪声 效 据 去 除 。 

在 本 例 中 ， 我 们 的 目的 是 判断 “销售 额 减少 是 否 受到 了 新 用 户 因素 
的 影响 "。 为 了 达到 这 个 目的 ， 我 们 需要 对 数据 进行 如 下 加 工 。 

















1. 把 用 户 信 息 数 据 ( DAU ) 和 首次 使 用 的 日 期 数据 ( Install ) 相 结 合 
为 了 得 到 某 一 天 首次 玩 《 黑 猫 拼图 》 游 戏 的 人 数 ， 我 们 需要 将 用 户 








ID 作为 key， 把 具有 相同 用 户 ID 的 用 户 信 息 和 Install 数据 结合 起 来 。 


R-CODE 


2. 将 上 述 数据 再 与 消费 信息 数据 ( DPU ) 相 结合 一 


为 了 得 到 在 某 一 天 有 消费 行为 的 用 户 数量 ， 把 用 户 ID 和 消费 日 期 
作为 key， 将 DAU 和 DPU 的 数据 结合 起 来 。 此 时 ， 由 于 DPU 中 未 包 
含 没 有 消费 行为 的 用 户 数据 ， 因 此 最 终 的 数据 中 不 仅 保留 了 各 数据 相 结 


合 的 记录 ， 也 保留 了 没有 和 DPU 数据 相 结合 的 记录 。、 
3. 将 未 消费 用 户 的 消费 额 设置 为 零 > 


在 DAU 中 ， 有 消费 行为 的 用 户 只 是 其 中 的 一 部 分 。 在 第 2 步 中 未 能 

和 DPU 数据 相 结 合 的 记录 也 被 保存 了 下 来 ， 因 此 在 消费 额 中 出 现 了 缺失 

值 。 由 于 有 缺失 值 的 存在 ， 在 计算 平均 值 等 的 过 程 中 就 会 出 现 问题 。 因 此 
访问 日 期 


需要 将 数据 中 的 缺失 值 (NA ) 替换 为 0， 以 便 计 算 平 均值 或 总 值 。 
3-05/ 
1 | 2013 年 6 月 1 日 |《 黑 猫 拼图 》 2013 年 4 月 15 日 
2 


0 
2013 年 6 月 1 日 《 黑 猫 拼图 》 3 2013 年 4 月 15 日 0 
3 | 2013 年 6 月 1 日 |《 黑 猫 拼 图 》 6 2013 年 4 月 15 日 0 




































@ 到 目前 为 止 加 工 处 理 得 到 的 数据 
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访问 日 期 
2013 年 6 月 1 日 


应 用 名 称 
《 黑 猫 拼图 》 


用 户 ID ”首次 使 用 的 日 期 


2013 年 4 月 15 日 


消费 额 / 日 元 





2013 年 6 月 1 日 


《 黑 猫 拼图 》 


2013 年 本 月 15 日 





2013 年 全 月 1 日 


2013 年 6 月 1 日 


《 黑 猫 拼图 》 
《 黑 猫 拼图 》 
《 黑 猫 拼图 》 


2013 年 4 月 15 日 
2013 年 4 月 15 日 
2013 年 和 月 15 月 








2013 年 6 上 月 1 日 


4. 按 月 统计 














在 本 例 中 ， 为 了 观察 上 月 和 本 月 数据 的 差别 ， 数 据 将 
统计 ， 也 就 是 按 月 统计 用 户 信息 。 


@ 按 月 统计 的 数据 


2013 年 6 月 


用 户 ID 
1 


首次 使 用 月 份 
2013 年 4 月 








会 按照 月 份 来 


EE、 R-CODE 





消费 额 /日 元 


0 





2013 年 6 月 


访问 月 份 


2013 年 4 月 


3 2013 年 6 月 3 2013 年 4 月 14994 


2013 年 6 月 


2013 年 4 月 





2013 年 6 月 


2013 年 4 月 





2013 年 6 月 





2013 年 4 月 








在 按 月 统计 的 数据 中 区 分 新 用 户 和 已 有 用 户 
为 了 确认 新 用 户 的 数量 是 否 减少 了 ， 我 们 可 以 比较 某 个 用 户 的 首次 


使 用 月 份 和 访问 月 份 是 


用 户 。 


图 灵 社 区 会 员 


个 相同 ， 如 于 相 同 则 是 新 用 户 ， 
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否则 便 是 已 有 





R-CODE 
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@ 包含 新 用 尸 /已 有 用 户 标 签 的 数据 


访问 月 份 ”用户 ID ”首次 使 用 月 份 ”消费 额 /日 元 ee 


2013 年 6 月 2013 年 4 月 





2013 年 6 月 2013 年 4 月 








2013 年 7 月 2013 年 7 月 
2013 年 7 月 2013 年 7 月 
2013 年 7 月 2013 年 7 月 




















上 月 (2013 年 6 月 ) 和 本 月 (2013 年 7 月 ) 的 已 有 用 户 和 新 用 户 
的 消费 额 数据 统计 如 下 表 所 示 。 


@ 上 月 和 本 月 的 新 用 户 /已 有 用 户 的 消费 额 统计 
访问 月 份 新 用 户 /已 有 用 户 总 消费 额 / 日 元 
177886 


2013 年 6 月 
49837 





177886 


2013 年 7 月 





29199 
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数据 可 视 化 制图 





现在 我 们 已 经 完成 了 数据 加 工 ， 并 将 数据 整理 成 适合 数据 分 析 的 状 
态 了 。 通 常 有 经 验 的 分 析 师 会 反复 输出 、 确 认 整 理 好 的 数据 ， 在 观察 各 
种 数据 的 过 程 中 找 出 问题 的 原因 。 本 书 为 了 让 读者 更 容易 理解 ， 将 数据 
导 换 为 数据 图 后 再 做 分 析 。 柱 状 图 是 一 种 有 助 于 有 效 把 握 数 据 内 容 的 工 
具 ， 现 在 我 们 就 用 它 来 将 数据 可 视 化 。 


新 用 户 

















R-CODE 


leaoy 


200,000- 





150,000- 


上 

三 user.type 
2 existing 
全 100000-“ 已 有 用 户 已 有 用 户 | 
& 

5 

OO 


50,000- 


2013-06 2013-07 
log_month 


《 黑 猫 拼图 》 游 戏 的 销售 额 比较 ( 上 月 /本 月 ) 
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上 图 中 左边 的 柱子 表示 的 是 上 月 的 销售 额 ， 右 边 的 柱子 表示 的 是 本 
月 的 销售 额 。 已 有 用 户 分 类 到 “existing” 的 类 别 下 ， 而 新 有 用户 分 到 
“install” 的 类 别 下 。 从 图 中 来 看 ， 已 有 用 户 市 米 的 销售 额 几 乎 没有 变 
化 ， 而 新 用 户 带 来 的 销售 额 却 下 降 了 ， 由 此 导致 本 月 销售 额 整体 下 降 。 
也 就 是 说 ， 我 们 在 初步 分 析 中 得 到 的 结果 很 顺利 地 验证 了 之 前 提出 的 
假设 。 

下 面 我 们 来 具体 看 一 下 哪个 消费 层次 的 消费 额 减 少 了 。 这 里 我 们 来 
做 一 个 只 有 新 用 户 数据 的 柱状 图 ， 将 新 用 户 上 月 和 本 月 的 文 付 情 况 可 视 
化 。 在 下 图 中 ， 横 轴 表 示 该 月 的 总 计 消 费 额 ， 一 个 柱子 的 宽度 代表 1000 























日 元 ， 纵 轴 表 示 该 消费 额 相 应 的 用 户 数 。 
> 
4 “消费 2000 日 元 以 下 
;的 用 户 数量 减少 了 
30- | 
log_month 
了 2013-06 
5 国 2013-07 
10- 
本 mm mn 
0 5000 10000 15000 


payment (JPY) 


《 黑 猫 拼图 》 游 戏 中 新 用 户 的 消费 额 比 较 ( 上 月 /本 月 ) 


在 上 图 中 ， 数 据 以 柱状 图 的 形式 表示 了 出 来 。 我 们 可 以 看 出 ， 和 上 
月 (2013 年 6 月 ) 相 比 ,本 月 (2013 年 7 月 ) 消费 额 在 2000 日 元 以 下 
的 用 户 数量 减 少 了 。 
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“ 景 律 分 布 


不 付出 大 量 的 劳动 就 不 可 能 提升 名 次 


oe 
i : 
商业 数据 中 经 常会 出 现 如 上 图 所 示 的 宕 律 分 布 。 根 据 笔者 以 往 的 经 
” 验 ， 凡 是 跟 人 们 的 心理 有 关系 的 数据 ， 比 如 某 类 商品 的 销售 状况 、 旅 游 
;景点 的 人 气 指数 ， 或 者 某 个 时 间 段 关键 词 的 搜索 次 数 等 ， 大 多 都 具有 类 
” 似 上 图 的 分 布 形状 。 : 
。 下面 我 们 来 讨论 一 下 这 种 数据 形状 出 现 的 背景 。 它 反映 了 一 种 常见 
的 竞争 心理 ， 想 超越 大 多 数 人 往 上 升 ， 只 需 稍 微 付出 一 些 努 力 即 可 , 但 
” 想 升 到 最 高 处 ， 还 只 是 付出 和 之 前 一 样 的 努力 是 很 难 实现 的 。 实 际 上 与 
。 人们 心理 相关 的 数据 都 会 表现 出 这 样 的 分 布 特 性 。 很 多 学 者 根据 商业 数 
; 据 中 经 常 出 现 的 这 种 分 布 形状 提出 了 各 种 各 样 的 研究 课题 和 规律 ， 比 
” 如， 人 们 发 现 八 成 的 销售 额 来 源 于 二 成 的 商品 ， 这 一 规律 被 称 为 “二 八 
”法 则 ”或 者 “长 尾 效应 "”。 : 
: ”在 社交 游戏 中 ， 用 户 可 以 用 金钱 来 购买 劳动 。 由 于 大 部 分 用 户 消费 ， 
得 很 少 ， 所 以 你 只 需要 花 不 多 的 钱 就 可 以 让 自己 的 排名 大 幅 上 升 。 然 
”而 ， 如 果 你 想 占据 排行 榜 的 顶端， 那么 所 要 花费 的 金额 马上 就 会 上 涨 。 
。 这 也 是 人 们 的 竞争 心理 结构 在 数据 分 布 上 的 表现 。 : 
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解决 对 策 





我 们 先 来 回顾 一 下 数据 分 析 之 前 设立 的 假说 。 


1.《 黑 猫 拼图 》 游 戏 的 销售 额 相 比 上 月 减少 了 ( 事实 ) 
2. 通过 观察 销售 额 的 构成 ， 发 现 新 用 万 市 来 的 销售 额 减少 了 ( 假设 ) 
3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 解决 方案 ) 


而 且 ， 根 据 此 前 数据 分 析 的 结 末 ， 我 们 可 以 知道 : 


1.《 黑 猫 拼图 》 游 戏 的 销售 额 和 上 月 相 比 减少 了 ( 事实) 
2. 通过 观察 销售 额 数 据 的 构成 ， 发 现 新 用 岂 市 来 的 销售 额 减少 了 ， 
其 中 消费 额 在 2000 日 元 以 下 的 轻 度 消费 用 户 的 人 数 减少 所 造成 
影响 最 大 ( 事实 ) 

3. 将 商业 宣传 活动 恢复 到 与 上 月 相同 的 水 平 ( 确信 度 较 高 的 解决 方案 ) 


基于 上 述 结果 ， 我 们 可 以 采取 下 面 的 解决 对 荣 来 提升 销售 额 。 

新 用 户 中 的 消费 用 户 数量 减少 了 ， 特 别 是 消 寓 金额 较 少 的 小 领 消 费用 
户 数量 减少 了 。 因 此 ， 公 司 需要 再 次 开展 商业 宣传 活动 并 恢复 到 之 前 的 水 
平 ， 这 样 才 有 可 能 担 升 海 在 用 户 对 公司 产品 的 认 知 度 ， 增 加 新 的 用 户 。 这 样 
一 来 ， 才 会 增加 小 额 消费 用 户 的 数量 ， 将 销售 额 恢 复 到 与 上 月 相同 的 水 平 。 

顺便 说 一 下 ， 在 实际 再 次 开展 商业 宣传 活动 时 ， 需 要 判断 商业 宣传 
活动 的 花费 能 否 和 新 用 户 的 顾客 终身 价值 (Life Time Value,，LTV) 相 
当 。 在 本 案例 中 ， 通 过 比较 用 其 他 方法 计算 出 来 的 LTV 和 获取 用 户 的 
成 本 ， 决 定 再 次 开展 商业 宣传 活动 。 
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本 章 主要 介绍 了 如 何 使 用 柱状 图 来 做 数据 分 析 。 
和 上 月 相 比 ， 本 月 销售 额 下 降 了 ， 我 们 将 其 作为 问题 ， 探 讨 了 问题 
出 现 的 原因 。 在 商业 数据 分 析 中 ， 很 重要 的 一 点 就 是 在 数据 分 析 之 前 ， 
尽 可 能 地 多 听取 相关 部 门 的 意见 ， 充 分 了 解 事 实 。 在 此 基础 上 ， 上 再 和 相 
关 负 责 人 共同 讨论 可 能 的 原因 ， 并 用 数据 进行 验证 。 
分 析 流 程 第 3 章 中 数据 分 析 的 成 本 
现状 和 预期 
发 现 问题 
数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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区 全 i 竺 细 扒 ] R 代码 








读 入 CSYV 文件 


必 这 Csv 文 件 03-014 


dau <- read.csv('"section3-dau.csv'", header = T, stringsAsFactors = F) 

head (dau) 

dpu <- read.csv('"section3-dpu.csv", header = T, stringsAsFactors = F) 

head (dpu) 

install <- read.csv ("section3-install.csv'", header = T, stringsAsFactors 
0 

head (install) 


输入 read.csv(AA,header=T,stringsAsFactors=F) ， 就 可 以 把 
文件 名 为 AA 的 文件 谈 入 R 语言 中 。AA 后 面 的 neader=T 表示 谈 人 的 文 
件 惠 有 数据 头 ， 其 中 了 表示 True。 相 反 ， 如 有 果 读 入 的 文件 没有 数据 尖 ， 
全 是 数据 ， 则 输入 F ( false )。 此 处 谈 入 的 数据 文件 中 包含 了 表示 各 列 数 
据 内 容 的 数据 头 ， 所 以 设 为 T。 下 一 个 参数 是 stringsAsFactors， 它 表示 
“即使 数据 中 混入 了 字符 也 照常 处 理 ”。 这 里 先 直接 输入 这 个 参数 。 

命令 A <- BBB 表示 将 BBB 的 处 理 结 果 放 入 到 R 语言 中 名 为 A 的 数 
据 存 储 空间 里 。 
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@ DAU 

并 log date app name user id | 
ene-01 15] -2019 征 6 朋 1 有 HID 为 16 的 月 使。 
; 覃 2 2013-06-01 game-01 13491 用 了 名 为 game-01 的 应 用 


## 3 2013-06-01 game-01 7006 
! ## 4 2013-06-01 game-01 117 
## 5 2013-06-01 game-01 13492 
! 撞 6 2013-06-01 game-01 9651 


上 述 数 据 被 放 人 名 为 DAU 的 数据 存储 空间 里 。 这 些 数据 包含 了 各 个 
日 期 里 使 用 该 应 用 的 全 部 用 户 的 ID。 





@DPU 

### log date app name user id payment 
; ## 2 2013-06-01 game-01 12796 81 的 用 户 消 费 了 1333 昌 元 
; ## 3 2013-06-01 game-01 364 sa ' 
; ## 4 2013-06-01 game-01 13212 648 
; #5 2013-06-01 game-01 13212 1142 
; ## 6 2013-06-01 game-01 13212 了 


DPU 仪 保存 了 有 消费 行为 的 用 户 每 日 所 消费 的 金额 数据 。 








@@ Install 


!  ## install date app name user id ' 
##11 ee me ol - 1 | 之 ID 为 1 的 用 户 在 2013 年 4 月 15 日 
! 关 # 2 2013-04-15 game-01 2 首次 使 用 该 应 用 
## 3 2013-04-15 game-01 3 
## 4 2013-04-15 game-01 4 
! ## 5 2013-04-15 game-01 5 
## 6 2013-04-15 game-01 6 


最 后 是 instal1， 这 里 保存 了 各 个 用 户 是 在 何 年 何 月 何 日 首次 玩 这 
个 游戏 的 数据 信息 的 。 
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合并 DAU 和 Install 的 数据 


R-CODE 
dau mst necgslqsueaseaun = Coer i > Ronanme WD 


head (dau.install) 








函数 用 于 将 两 块 数据 合并 到 一 起 。 

输入 merge (A,B,by=c ("XXX")) 后 ， 就 可 以 将 A 数据 和 B 数据 中 
XXX 属性 内 容 相 同 的 行 合并 起 来 。 此 处 我 们 把 aau 数据 和 install 数据 
中 user id 和 app_name 内 容 相 同 的 行 合 并 起 来 。 也 就 是 说 ， 通 过 指定 
by 后 面 的 内 容 ， 我 们 就 把 game-01 应 用 中 同一 个 用 户 ID 的 数据 合并 了 


merge 





TR 


## user id app name log date install date 


一 game-01 应 用 中 1D 为 


## 1 1 game-01 2013-06-03 2013-04-15 | | 
# 提 2 1 game-01 2013-06-14 2013-04-15 ee | 
从 为 ] 互 ! 
## 3 1 game-01 2013-07-09 2013-04-15 i | 
## 4 1 game-01 2013-06-10 2013-04-15 
## 5 1 game-01 2013-06-08 2013-04-15 
## 6 1 game-01 2013-06-05 2013-04-15 
为 了 方便 阅读 ， 最 左边 的 一 列 是 连续 的 行 号 ， 然 后 回 右 依次 是 
user id、app name、log data、install data 的 数据 。 上 述 的 合并 
ss 寿 是 失败 了 ， 就 会 显示 错误 。 这 种 错误 的 发 生 ， 多 是 因为 输 
类 型 错误 或 者 数据 不 完善 (这 里 主要 是 指 本 该 输入 数字 的 地 方 混 人 了 
es 


合并 上 述 数 据 和 DPU 数据 
dausmeeoll Damene = nerge ww du < io ee \93-03) 


vamos name ee Cel ea 
head (dau.install .payment) 






此 处 我 们 依然 使 用 merge 函数 来 合并 新 的 数据 。 
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，  ## log date app name user id install date|payment ' 
; #1 2013-06-01 game-01 1 2013-04-15 全 新 合并 了 消 | 
; # 2 2013-06-01 game-01 于 费 金 额 数 据 | 
; 样 3 2013-06-01 game-01 6 2013-04-15 
; #4 2013-06-01 game-01 ji | 
i 振 5 2013-06-01 game-01 in 20l304-15 | 
i 拉 6 2013-06-01 game-01 18 2013-04-15 





可 以 看 到 ， 行 号 后 依次 是 1og data、app name、user id、install 
dqata， 最 右边 合并 了 一 列 消 费 金 额 数据 (payment )。 然 而， 这 里 并 没 
有 显示 消费 金额 ， 显 示 的 是 文字 “NA”。 这 是 因为 只 有 发 生 了 消费 行 ， 
的 用 户 才 会 产生 数据 ， 否 则 就 没有 数据 ， 缺 失 的 数据 在 合并 后 就 显示 为 
“NA”。 

实际 上 应 该 是 消费 金额 数据 和 “NA” 混 末 在 一 起 ， 在 数据 金额 那 一 
列 里 还 应 该 有 “NA” 以 外 的 其 他 数值 的 记录 存在 ,但 是 上 图 中 前 6 行 记 
录 的 消费 金额 全 都 是 “NA”， 所 以 我 们 还 不 太 确 定 消 费 金额 数据 是 否 已 
经 和 之 前 的 数据 正确 地 合并 了 。 为 了 确认 这 一 点 ， 输 入 下 列 代码 ， 查 看 
消费 金额 为 非 “NA” 的 数据 。 











head (na.omit (dau.install .payment)) 





### log date app name user id install date lpayment 





; #7 2013-06-01 game-01 19 2013-04-15 全 确认 了 存 | 
: 樟 81 2013-06-01 game-01 1 在 消费 金 ， 
; 84 2013-06-01 game-01 36& 2013-04.18 额 为 非 空 | 
; ## 186 2013-06-01 game-01 1359 2013-04-23 的 数据 | 
; 提 271 2013-06-01 game-01 3547 2013-04-27 | 
; # 797 2013-06-01 game-01 9757 2013-05-20 

payment 项 目 显示 了 了 “NA” 以 外 的 数据 ， 即 消费 金额 ， 这 意味 者 


payment 属性 为 数值 的 记录 已 成 功 合并 了 进去 。 
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将 未 消费 用 户 的 消费 额 设 置 为 零 
# 将 未 消费 的 记录 的 消费 额 设置 为 0 


dau.install.payment$payment [is.na(dau.install.payment$payment)] <- 0 
head (dau.install .payment) 








输入 AASBB [is.na(AA$SBB)] <- 0, 将 数据 AA 中 属性 BB 为 “NA” 
的 数据 答 换 为 “0” 

在 上 述 数据 处 理 中 ， 未 消费 的 用 户 被 标记 为 “NA”， 这 并 不 是 一 个 
好 的 状态 。 那 么 没有 消费 的 用 户 应 该 用 什么 来 标记 合适 呢 ? 虽然 需要 具 
体 分 析 ， 但 这 里 我 们 认为 用 “0” 来 表示 比较 合适 ， 于 是 输入 上 述 代 码 。 














昔 ## log date app name user id install date |payment 

## 1 2013-06-01 game-01 1 2013-04-15 之 用 “0” 来 替 
## 2 2013-06-01 game-01 3 2013-04-15 换 缺 失 值 
## 3 2013-06-01 game-01 本 NA 

## 4 2013-06-01 game-01 11 2013-04-15 

## 5 2013-06-01 game-01 17 2013-04-15 

## 6 2013-06-01 game-01 18 2013-04-15 


和 之 前 的 输出 结果 相 比 ， 可 以 看 到 user_id 为 1 的 用 户 的 “NA” 





属性 值 已 经 被 葵 换 为 “0” 了 


按 月 统计 











4 增加 一 列表 示 月 从 S44 


dau nestall pevmene logmontehe substreldau nseall paymenb Loon 

date, 1, 7) 

dau Insteall payment Sanstal lmonth 
=>substrldau nea avymen nallidace TV 


install .packages (plyr) 
library (plyr) 
mau.payment <- ddply (dau.install.payment, 
(Loomeonth User id oO nestallomoneh) 站 分 组 
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IE # 汇总 命令 
payment = sum(payment) # payment 的 总 和 


) 


head (mau.payment) 


现在 分 析 的 数据 ， 都 是 年 月 日 (例如 2013-04-15 ) 这 种 按 日 统计 
的 数据 。 如 果 和 需要 按 月 分 析 ， 则 需要 生成 按 月 统计 的 信息 。 这 就 需要 从 
年 月 日 (例如 2013-04-15 ) 的 数据 中 提取 并 汇总 年 和 月 的 部 分 。 

输入 AASCC <- substr(RASBB,1,4) 的 命令 , 将 AR 数据 的 BB 列 
属性 的 第 1 到 第 4 个 字符 提取 出 来 ， 并 作为 AR 数据 的 cc 属性 值 输入 。 
现 有 的 数据 中 日 期 的 格式 为 “YYYY-MM-DD”， 因 此 需要 提取 前 面 7 个 字 
符 ， 也 就 是 “YYYY-MM” 的 部 分 。 使 用 日 期 和 首次 使 用 日 期 两 个 数据 都 
需要 做 这 个 处 理 。 

下 一 步 是 汇总 。 数 据 的 汇总 可 以 使 用 1ibrary (p1yr) 。 关 于 程序 包 
/ 工具， 请 参考 “R 语言 入 门 ”里 的 解释 。 此 处 下 载 名 为 plyr 的 工具 ， 
并 在 自己 的 计算 机 上 将 其 设置 到 可 用 状态 。 

利用 男 数 ddply (AAA, . (B,C),， summarize,XXX=sum (XXX) )， 按 
照 AAA 数据 的 属性 B 和 Cc 来 分 组 ， 并 用 加 法 来 计算 总 和 。 这 里 我 们 使 用 
的 是 log month,user id,install month， 即 按照 每 个 有 记录 的 月 份 
( log month )、 每 个 用 户 ID ( user id ) 和 每 个 首次 使 用 月 份 ( install 
month ) 来 合计 消费 金额 。 
































## Dog monthluser id jinstall monthl|payment ' 
## 1 1 全 访问 时 间 和 首次 使 用 日 ， 
## 2 2 期 从 以 日 为 单位 转换 到 | 
本 3 以 月 为 单位 , 消费 金额 ， 
并 大 4 4 也 以 月 为 单位 来 汇总 

## 5 6 

## 6 7 


最 终 ，mau .payment 数据 里 面 保存 了 访问 月 份 为 2013 年 6 月 、7 
月 和 首次 使 用 月 份 为 2013 年 4 月 的 每 个 用 户 的 数据 。 
当前 这 份 数 据 ， 通 过 仔细 观察 ， 也 能 够 进行 分 析 ， 但 是 作为 一 个 合 
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格 的 数据 科学 家 ， 我 们 可 以 根据 首次 使 用 月 份 的 数据 ， 对 数据 进行 追加 
汇总 ， 在 制 成 图 表 的 时 候 ， 让 新 用 户 和 已 有 用 户 的 增 减 一 目 了 然 。 


增加 属性 来 区 分 新 用 户 与 已 有 用 户 
# 识别 新 用 户 和 已 有 用 户 


mau. DaymentSusez .type 
=telselmau evmnentsinstallimnontn== mosneneshioogumontl 
vmaeallr, Veslaleune wy) 











mau.payment .summary <- ddply (mau.payment, 


. (log month, user.type), # 分 组 
summarize, # 汇总 命令 


total.payment = sum(payment)  # payment 的 总 和 
) 

head (mau.payment) 

head (mau.payment .summary,) 


ifelse (AA==BB，“"XX", "YY") 困 数 表示 如 果 属 性 AA 和 属性 BB 的 
值 相 同 ， 则 记 为 XxX， 如 果 不 同 则 记 为 YY。 利 用 这 个 函数 ， 如 有 果 用 户 的 
首次 使 用 月 份 和 最 近 使 用 月 份 相同 ， 就 为 新 用 户 ,， 在 mau .payment 数 
据 的 user.type 属性 列 中 记 入 “instal1l2。 如 果 这 两 个 月 份 不 同 ， 就 
为 已 有 有 用户， 在 user.type 属性 列 中 记 人 “existing”。 





## log month user.type total.payment 之 6 月 和 7 月 的 消费 额 按 照 


## 1 2013-06 existing 177886 已 有 用 户 和 新 用 户 分开 
## 2 2013-06 install 49837 输出 

## 3 2013-07 existing 177886 

## 4 2013-07 install 29199 
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数据 可 视 化 


R-CODE 








library (ggplot2) 
library (scales) 


ggplot (mau.payment .summary, aes (x = log month, y = total.payment, 
lu ey pe gombarg sealery concinyeous (lab com 


R 语言 的 程序 包 里 通常 包含 有 用 于 绘图 的 工具 。 这 里 我 们 需要 使 用 
一 个 在 RR 语言 分 析 中 必须 用 到 的 制图 工具 ggplot2， 来 确认 数据 。 
ggplot2 包含 有 丰富 的 功能 ， 很 多 书 中 都 对 这 些 功能 做 出 了 详细 的 解 
释 ， 这 里 我 们 先 直 接 使 用 上 述 命令 。 如 果 更 换 上 述 命令 中 的 1og_month 
或 者 total .payment 等 属性 名 称 ， 则 会 得 到 不 同 的 图 形 。 

需要 注意 的 是 ， 在 使 用 ggp1lot2 作 图 时 存在 不 能 显示 汉字 的 情况 。 
此 时 我 们 可 以 通过 library (sysfonts) 和 1ibrary(showtext) 命令 
导入 字体 包 来 解决 这 个 问题 。 

男 外 ， 我 们 还 使 用 了 scales 程序 包 。 这 是 一 个 将 普通 数字 转换 为 
以 三 位 数 为 一 个 区 间 来 显示 的 工具 ， 例 如 1000 经 转换 后 为 1,000。 利 用 
上 述 工具 生成 的 数据 图 如 下 所 示 。 
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《 黑 猫 拼图 》 游 戏 的 销售 额 比较 ( 上 月 /本 月 ) 


下 面 我 们 只 考虑 新 用 户 的 数据 ， 将 上 月 和 本 月 的 销售 状况 以 柱状 图 
的 形式 表示 出 来 。 


R-CODE 
ggplot (mau.payment [mau.payment$payment > 0 & 3-09/ 


mau.payment $user.type == "install'", ], aes(x = payment, 
El oo monel Tacomnhisteoaranlposie ion ooge lmwrael = 2000) 
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《 黑 猎 拼图》 游戏 新 用 户 的 销售 额 数据 比较 ( 上 月 /本 月 ) 
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[分析 基础 ] 篇 


第 4 章 
案例 @ 一 交叉 列表 统计 


什么 梓 的 顾客 会 选择 离开 


社交 游戏 的 用 户 流 失 分 析 

和 上 月 相 比 ， 本 月 ( 黑 猫 拼图 》 游 戏 的 用 户 数 减少 了 很 多 。 
和 上 月 相 比 ， 本 月 的 商业 宣传 和 月 度 活动 并 无 大 的 变化 。 因 
此 ， 我 们 需要 调查 清楚 用 户 数 大 量 减少 的 原因 并 改善 这 种 状 
况 ， 那 么 我 们 该 怎么 做 呢 ? 
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本 现状 和 预期 





《 黑 猫 拼图 》 游戏 从 发 布 到 现在 已 经 有 一 年 零 三 个 月 了 。 在 游戏 刚 
发 布 时 ， 用 户 数 大 量 增加 ， 其 中 大 部 分 是 游戏 发 布 前 就 已 经 注册 的 用 
户 。 然 而 ， 几 周 后 的 一 次 严重 的 程序 问题 导致 了 用 户 流失 。 又 过 了 一 个 
月 ， 由 于 投放 的 广告 发 挥 了 作用 ， 用 户 数量 再 次 增加 ， 而 后 这 些 新 的 用 
户 又 逐渐 流失 。 虽 然 用 户 数 在 短期 内 经 稼 反复 地 上 下 波动 ， 但 从 按 月 统 
计 的 数据 来 看 ， 在 游戏 发 布 后 的 半年 时 间 里 ， 用 户 数 保持 了 上 升 的 女 
头 。 而 这 之 后 的 8 个 月 时 间 ， 游 戏 的 用 户 数 也 一 二 维持 之 前 的 水 平 。 

然而 ， 从 这 个 月 开始 ， 用 户 数 开始 大 量 减少 。 因 为 《 黑 猫 拼图 》 游 
戏 是 公司 具有 代表 性 的 成 功 应 用 ， 所 以 这 次 用 户 数 减少 的 问题 也 备 受 
人 

广告 部 的 负责 人 表示 :“ 和 上 个 月 相 比 ， 商 业 推广 活动 无 论 是 从 内 容 
上 还 是 从 数量 上 来 看 都 没有 发 生变 化 。 
游戏 企划 部 的 负责 人 也 表示 :“ 每 月 开展 的 游戏 活动 并 没有 什么 大 的 
差异 。” 

因此 ， 社 交游 戏 事业 部 的 部 长 器 数据 分 析 部 门下 达 了 指示 :“ 调 查 清 
杷 用 户 数量 减少 的 原因 ， 并 尺 全 力 改 善 这 种 状况 。” 
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《 黑 猫 拼图 》 游 戏 的 用 户 数 比较 ( 上 月 /本 月 ) 


一 般 襄 来 ， 无 论 是 什么 诛 题 ， 数 据 分 析 的 负责 人 首先 需要 做 的 就 是 
明确 问题 现状 和 预期 。 本 例 中 同样 需要 首先 分 析 现 状 和 预期 。 

首先 ， 我 们 面临 的 现状 是 “和 上 月 相 比 ， 本 月 的 用 户 数 减少 了 ”。 
在 本 例 中 ,我们 的 目标 是 查 清 用 户 数 减少 的 原因 ， 并 确保 和 上 月 相同 的 
用 户 效 。 那 么 ， 下 一 步 要 做 的 就 是 通过 数据 分 析 查 清原 因 ， 并 明确 所 需 
要 解决 的 问题 。 




















预期 


恢复 到 与 上 
月 相同 的 用 


有 





现状 > 


同上 月 相 比 
用 户 数 减少 了 





第 4 章 的 现状 和 预期 
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同样 ， 在 第 4 草 中 ， 为 了 明确 现状 和 预期 之 间 差 距 的 结构 ， 我 们 需 
要 首先 思考 上 月 和 本 月 有 哪些 不 同 的 地 方 。 在 发 现 问题 的 阶段 ， 重 要 的 
征 从 大 而 广 的 视角 出 发 来 券 愿 各 种 可 能 性 。 例 如 ， 我 们 可 以 答 试 做 出 如 


下 假设 。 





1. 商业 推广 上 存在 问题 ， 流 失 的 用 户 数 超过 了 新 增 的 用 户 数 

2. 每 月 不 同 主题 的 游戏 活动 开始 变 得 很 无 聊 ， 用 户 都 不 爱 玩 了 

3. 按 用 户 的 性 别 或 者 年 龄 段 等 属性 来 划分 用 户 群 ， 可 能 是 其 中 某 个 
用 户 群 出 现 了 问题 


做 出 上 述 假设 后 ， 应 尽 可 能 地 在 短 时 间 内 大 致 验证 一 下 。 我 们 通过 
咨询 市 场 部 和 游戏 开发 部 ， 得 到 了 下 述 信息 。 





1. 同上 月 相 比 ， 商 业 推 广 的 力度 大 体 没 变 ， 新 增 用 户 数 也 大 致 保持 
在 相同 的 水 平 
2. 开展 的 各 种 游戏 活动 同上 月 相 比 几乎 没有 变化 





因此 ， 只 剩 下 第 3 条 假设 “可 能 是 其 中 茶 个 用 户 群 出 现 了 问题 ” 没 
能 得 到 验证 了 。 也 就 是 说 ， 并 没有 发 现 现 有 问题 是 由 第 1 条 或 第 2 条 假 
设 造成 的 。 再 进一步 深 挖 假设 的 内 容 ， 可 以 和 这 用 户 群 通 第 是 按照 性 
别 、 年 龄 段 等 来 划分 的 。 于 是 ， 首 先 我 们 可 以 考虑 是 否 有 茶 个 属性 的 用 
户 群 数量 减少 了 ， 然 后 通过 和 上 月 的 数据 加 以 比较 ， 确 认 用 户 数量 减少 
了 的 用 户 属性 ， 并 思考 如 何 恢复 用 户 数 量 。 
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本 数据 的 收集 和 加 工 








探讨 分 析 所 需 的 数据 

在 确定 了 分 析 的 主题 后 ， 就 需要 探讨 一 下 分 析 所 需 的 数据 了 。 

这 次 的 用 户 群 分 析 到 底 需 要 哪些 数据 呢 ? 本 案例 中 我 们 提出 的 假设 
如 下 所 示 。 


e@ 和 上 月 相 比 ， 用 户 数量 减少 了 ( 事实 ) 

e@ 某 个 用 户 群 出 现 了 问题 ( 假设 ) 

e@ 针对 用 户 数量 减少 了 的 用 户 群 采取 相应 的 措施 ， 使 用 户 数量 回 到 
和 上 月 相同 的 水 平 


基于 这 个 假设 ， 让 我 们 整理 一 下 分 析 的 过 程 。 


1.《 黑 猫 拼 图 》 游 戏 的 用 尸 数 量 相 比 上 月 减少 了 ( 事实 ) 
2. 某 些 用 户 群 的 用 户 数 量 减 少 了 ( 假设 ) 
3. 针对 该 用 户 群 制定 相应 的 措施 ， 使 用 户 数 量 回 到 和 上 月 相同 的 

水 平 ( 解决 方案 ) 


为 了 完成 这 个 方案 ,需要 调查 一 下 《 黑 猫 拼图 》 游 戏 的 销售 额 构 成 。 
在 上 一 音 中 ， 针 对 销售 额 减少 的 问题 ， 我 们 猜测 原因 可 能 是 商业 宣 
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传 活动 减少 了 ， 并 在 随后 的 数据 分 析 中 验证 了 上 述 猜 测 是 否 正 确 。 这 种 
分 析 方 式 称 为 “验证 型 数据 分 析 ”。 而 在 本 章 中 ， 我 们 只 知道 “存在 问 
题 "， 却 无 法 轻易 找到 原因 。 也 就 是 说 ， 本 例 中 无 法 事先 猜测 问题 出 现 
的 原因 ， 而 是 需要 通过 数据 分 析 来 控 索 原因 所 在 ， 这 种 方式 称 为 “探索 
型 数据 分 析 ”。 从 其 他 行业 的 数据 分 析 师 口中 也 了 解 到 ， 不 管 什么 企业 ， 
对 “探索 型 数据 分 析 ” 和 “验证 型 数据 分 析 ” 的 需求 大 约 各 占 一 半 。 本 
章 将 主要 关注 占 二 分 之 一 的 “探索 型 数据 分 析 ”。 
为 了 能 够 通过 数据 明确 问题 ， 我 们 需要 下 面 的 数据 。 











@ DAU ( Daily Active User， 每 天 至 少 来 访 1 次 的 用 户 数据 ) 
e@ user_info( 用 户 属 性 数据 ) 


@ DAU 


数据 内 容 数据 类 R 语言 中 的 标识 
访问 时 间 string ( log_data 





应 用 名 称 string ( 字符 串 ) app_name 
用 户 ID int ( 数值 ) user_id 














@ user_info 
数据 内 容 R 语言 中 的 标识 
首次 使 用 日 期 install_data 
应 用 名 称 app_name 
int ( 数值 ) user_id 
生 别 ( 女性 、 男 性 ) string ( 字符 串 ) gender 








int ( 数值 ) generation 





string ( 字符 串 ) device_type 


这 里 的 数据 基本 虱 来 自 于 日 志 ， 即 使 没有 数据 分 析 的 需求 ， 每 天 也 











都 持续 积累 着 。 
总 之 我 们 已 经 确定 了 需要 分 析 哪 些 数据 ， 下 一 步 就 该 考虑 如 何 收集 
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这 些 数据 了 。 本 次 的 情况 和 上 一 划一 样 ， 所 有 数据 痢 存 在 服务 各 上 ， 只 
需 将 其 读 和 人 处 理 即 可 。 


~ A 
® DAU 


访问 时 间 应 用 名 称 


210 ea 《 黑 猫 拼图 》 
2013 年 8 月 1 《 黑 猫 拼图 》 
9019 全 全 月 汪 《 黑 猫 拼图 》 











2013 年 8 月 1 《 黑 猫 拼图 》 
2013 年 月 1 《 黑 猫 拼图 》 
2019 年 古 月 《 黑 猫 拼图 》 














我 们 以 第 1 行 数据 为 例 来 介绍 一 下 数据 的 内 容 。 该 行 数据 表示 
“2013 年 8 月 1 日 ID 为 33754 的 用 户 访问 了 《 黑 猎 拼图》 游戏 ”"。 每 天 
到 访 的 用 户 ID 都 收集 在 这 个 数据 中 。 


@ User.info 

首次 使 用 日 期 应 用 名 称 ”用户 ID 
2013 年 4 月 15 日 |《 黑 猫 拼 图 》 
2013 年 4 月 15 日 |《 黑 猫 拼图 》 10~19 岁 | Android 
2013 年 4 月 15 日 |《 黑 猫 拼 图 》 
2013 年 4 月 15 日 |《 黑 猫 拼图 》 
2013 年 4 月 15 日 |《 黑 猫 拼 图 》 
2013 年 4 月 15 日 |《 黑 猫 拼 图 》 
2013 年 4 月 15 日 |《 黑 猫 拼图 》 
2013 年 4 月 15 日 |《 黑 猫 拼图 》 



































接 下 来 是 user.info 数据 。 这 个 数据 集 包 含 了 首次 使 用 日 期 、 应 用 名 
称 、 用 户 ID、 人 性 别 、 年 龄 段 、 所 使 用 的 手机 终端 类 型 这 些 用 户 属性 数 
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据 。 例 如 数据 的 第 1 行 表 示 “ 在 2013 年 4 月 15 日, ID 为 1、 年 龄 段 在 
40~49 岁 的 男性 用 户 使 用 iOS 手机 终端 首次 访问 了 《 黑 猎 拼图》 游戏 ”。 


数据 加 工 


在 像 本 例 这 样 探索 原因 的 数据 分 析 中 ， 大 多 是 将 某 个 状态 的 数据 
(结果 数据 ) 和 用 户 的 属性 信息 (原因 数据 ) 合并 起 来 ， 从 而 得 知 哪些 
属性 (原因 ) 可 能 导致 哪 种 状态 (结果 )。 因 此 我 们 将 上 述 两 种 数据 合 


并 起 来 。 
人 
ea 








@ 把 DAU 数 据 和 user.info 数 据 合 并 起 来 
用 户 首次 使 用 


ID 


应 用 名 称 


《 黑 猫 拼图 》 


访问 时 间 


2013/9/6 


日 其 
2013/4/15 


性 别 
男性 


年 龄 段 


40~49 岁 





《 黑 猫 拼图 》 
《 黑 猫 拼图 》 


2013/9/5 
2013/9/28 


2013/4/15 
2013/4/15 


男性 


40~49 岁 


40~49 岁 





《 黑 猫 拼图 》 


2013/9/12 


2013/4/15 


40~49 岁 








《 黑 猫 拼图 》 
《 黑 猫 拼图 》 


2013/9/2 
2013/8/27 


2013/4/15 
2013/5/22 


40~49 岁 


10~19 岁 


Android 





《 黑 猫 拼图 》 


2013/8/25 


2013/5/22 


10~19 岁 


Android 





《 黑 猫 拼图 》 
《 黑 猫 拼图 》 
《 黑 猫 拼图 》 


2013/9/9 
2013/8/5 
2013/8/11 


2013/5/22 
2013/5/22 
2013/5/22 


10~19 岁 
10~19 岁 


10~19 岁 


Android 


Androld 





《 黑 猫 拼图 》 


2013/9/14 


2013/5/22 


30~39 岁 


IOS 


























这 里 我 们 在 user.info 的 属性 数据 中 追加 了 DAU 中 各 个 用 户 的 访问 
日 期 信息 。 这 样 一 来 ， 用 户 是 否 使 用 了 该 应 用 的 信息 和 用 户 自 号 的 属性 
言 息 都 被 归纳 到 了 同一 个 数据 表 中 。 
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本 数据 分 析 





由 于 在 之 前 的 处 理 中 ， 我 们 将 包含 用 户 访 问 情况 的 DAU 数据 和 包 
含 用 户 属 性 的 user.info 数据 进行 了 合并 ， 因 此 接 下 来 就 可 以 对 上 述 数 据 
进行 因 采 关系 的 分 析 了 。 为 了 弄 清 楚 哪 种 属性 的 用 户 群 人 数 比 上 月 减少 
了 ， 我 们 对 数据 进行 交 又 列表 统计 ， 如 果 发 现 了 可 能 是 问题 原因 的 属 
， 就 将 其 可 视 化 。 

进行 因果 关系 的 分 析 时 ， 具 体 来 说 有 以 下 几 步 。 





二 





1. 用 户 群 分 析 ( 对 每 个 用 尸 群 进行 交 义 列表 统计 ) 
2. 将 已 明确 的 用 尸 群 数据 可 视 化 


对 每 个 用 户 群 进行 交叉 列表 统计 ( 用 户 群 分 析 ) 





@ 用 户 群 分 析 ( 性 别 ) 





访问 月 份 








2013 年 8 月 

2013 年 9 月 

通过 上 表 就 可 以 看 出 性 别 的 影响 。 比 较 2013 年 8 月 和 9 月 男女 用 
户 的 数量 ， 可 以 看 出 虽然 整体 上 用 户 数量 在 下 降 ， 但 用 户 的 男女 构成 比 





例 大 体 没 有 变化 。 由 此 可 以 判断 性 别 属性 对 用 户 数 量 下 降 的 影响 很 小 。 
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接着 我 们 考虑 年 龄 段 属性 的 影响 ， 并 统计 出 各 个 年 龄 段 用 户 数 的 变 





R-CODE 
04-04 


@ 用 户 群 分 析 ( 年 龄 段 ) 


年 龄 段 


访问 月 份 


10~19 岁 20~29 岁 30~39 岁 40~49 岁 50~59 败 


2013 年 8 月 18785 33671 28072 8828 4829 
2013 年 9 月 15391 27229 22226 7494 
通过 比较 2013 年 8 月 和 9 月 的 数据 ， 我们 可 以 看 到 无 论 是 哪个 年 
龄 段 ， 在 整体 用 户 数 量 中 所 占 的 比例 都 没有 发 生 大 的 变化 ， 也 没有 发 现 
哪个 年 龄 段 的 用 户 数 大 量 减少 了 。 这 里 我 们 需要 再 进一步 细 分 ， 看 看 是 
否 某 个 性 别 下 的 某 个 年 龄 段 的 用 户 数量 减少 了 。 也 就 是 说 ， 将 性 别 和 年 
龄 段 属性 组 合 起 来 进行 交叉 列表 统计 。 像 这 样 将 交叉 列表 统计 的 分 析 轴 
组 合 起 来 的 方法 称 为 na 重 交 叉 列 表 统 计 。 这 里 我 们 将 性 别 和 年 龄 段 组 合 


起 来 ， 形 成 2 重 交叉 列表 统计 。 
> R-CODE 
@ 用 户 群 分 析 ( 性 别 x 年 龄 段 ) 全 











Ce 女性 男性 
wal 
月 份 10~19 20~29 30~39 40~49 50~59 10~19 20~29 30~39 40~49 50~59 


CI CI 


C3 岁 岁 岁 岁 


岁 S20 岁 
2013 
年 8 | 9091 | 17181 |14217| 4597 | 2257 | 9694 |16490|13855| 4231 | 2572 
月 
2013 
年 9"| 7316 .13616 |11458| 3856 | 1781 |-8075'|113613|10768| 3638 | 2054 
月 


通过 将 性 别 和 年 龄 段 进行 交 义 组 合 ， 形 成 了 20~29 岁 女 性 、30~39 
岁 女性 等 新 的 分 析 轴 。 通 过 观察 统计 数据 ， 我 们 发 现 各 个 用 户 群 的 用 户 


























数量 整体 部 下 降 了 ,但 每 个 用 户 群 所 占 的 比例 大 体 没 变 ， 也 没有 发 现 哪 
个 用 户 群 的 数量 急剧 下 降 。 
下 面 我 们 需要 考虑 的 是 用 户 所 使 用 的 设备 的 差异 。 
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@ 用 户 群 分 析 ( 设备 ) R-CODE 
访问 月 份 
PAValelte)le IOS 


2013 年 8 月 46974 47211 
2013 年 9 月 29647 46528 


结果 是 使 用 10S 设备 的 用 户 数 略 有 下 降 ， 而 使 用 Android 的 用 户 却 








大 量 减 少 了 站， 因此 这 个 用 户 群 的 分 析 很 可 能 就 是 解决 该 问题 的 关键 。 
为 了 更 详细 地 看 到 上 述 数 值 的 差异 ， 我们 可 以 生成 以 天 为 单位 的 时 
间 序 列 图 ， 据 此 来 确认 用 户 数 的 变化 程度 。 


COLUMN 


交叉 列表 统计 


交叉 列表 统计 是 将 有 因果 关系 的 二 者 组 合 起 来 进行 统计 分 析 的 方 
”法 。 比 如 考虑 “30~39 岁 的 女性 用 户 和 20~29 岁 的 男性 用 户 的 行为 有 
” 何 差异 ”等 ， 像 这 样 对 两 种 用 户 属性 和 行为 结果 之 间 关 系 进行 统计 ， 我 
” 们 称 为 2 重 交叉 列表 统计 。2 重 交叉 列表 统计 在 大 多 数 工作 中 经 常会 用 
到。 以 此 类 推 ， 对 由 两 类 以 上 的 用 户 属性 组 合 起 来 形成 的 复合 属性 的 因 
， 果 关系 进行 分 析 ， 就 称 为 多 重 ( n 重 ) 交叉 列表 统计 。 ’ 
“为 了 通过 数据 分 析 得 到 想 要 的 结果 ， 找 出 哪些 用 户 属性 对 期 望 的 用 
” 户 行为 ( 比如 “购买 " ) 影响 最 大 ， 或 者 哪些 用 户 属性 的 影响 较 小 才 是 
”最 为 重要 的 。 要 想 找 出 这 些 属性 ， 首 先 需 要 和 业务 负责 人 讨论 。 然 后 ， 
通过 数值 比较 快速 确认 对 “期 望 的 用 户 行为 "= “结果 ”有 较 大 影响 的 
“用 户 属性 "= “原因 ”( 比如 性 别 、 年 龄 等 )。 在 这 一 点 上 ， 交 叉 列表 统 
” 计 是 一 种 非常 有 效 的 方法 。 如 果 我 们 能 够 找 出 对 结果 有 较 大 影响 的 属性 
组合， 那么 就 可 以 采取 行动 ， 将 其 列 为 重点 经 营 的 地 方 。 
由 上 可 知 ， 交 叉 列 表 统 计 在 商业 中 有 着 广泛 的 用 途 。 不 单 是 数据 分 
。 析 人 员 ， 其 他 职务 的 员工 也 经 常 使 用 。 当 需要 对 收集 的 数据 加 以 解读 
”时 ， 首 先 为 了 对 数据 整体 有 一 个 初步 的 了 解 ， 通 常会 对 数据 进行 单纯 的 
”统计 ， 或 者 作出 柱状 图 。 如 果 是 需要 分 析 数 据 的 变化 趋势 或 者 像 上 面 那 
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。 样 通过 复合 属性 来 发 气 因 果 关 系 ， 那 么 仅 对 数据 的 属性 分 别 进 行 交叉 列 
” 表 统 计 ， 就 可 以 得 到 十 分 有 用 的 结论 。 : 
交叉 列表 统计 可 以 使 用 Excel 的 数据 透视 表 功 能 来 实现 ， 但 是 当 需 
。 要 生成 大 量 的 交叉 统计 表 或 者 多 重 的 交叉 统计 表 时， 使 用 Excel 会 非常 
。 麻烦。 当 需 要 知道 所 有 属性 和 结果 的 因果 关系 时 ， 用 Excel 去 处 理会 耗 
。 费 大 量 的 时 间 ， 因 此 这 种 情况 下 就 会 经 常 使 用 应 用 性 较 强 的 R 语言 。 





2,000- 





1,500- | 


device_type 
-S- ANdrold 
售 iOS 


dau 


1,000- 





500- 


1 1 1 1 
8 01 8 15 9 15 10 01 


9 01 
log_date 


不 同类 型 设备 的 用 户 数 变迁 


为 了 确定 每 种 设备 用 户 数 在 时 间 序 列 上 的 变化 情况 ， 我 们 利用 时 间 
序列 图 将 数据 可 视 化 ， 并 得 出 了 显而易见 的 结论 。 上 图 的 横 轴 表示 访问 
日 期 ， 纵 轴 表 示 访 问 次 数 ， 两 条 曲线 分 别 表示 iOS 和 Android 设备 的 访 
问 次 数 随 时 间 的 变化 情况 。 

可 以 看 出 ，iOS 的 用 户 数 和 之 前 大 体 相同 ， 而 Android 的 用 户 数 从 
9 月 的 第 2 周 开始 急剧 减少 。 
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解决 对 策 








虽说 本 例 是 一 种 探索 型 数据 分 析 ， 但 在 这 种 情况 下， 经常 回顾 事先 
提出 的 假设 ,确认 数据 分 析 的 出 发 点 ， 对 提升 工作 效率 也 依然 非常 重 
有 要。 在 数据 分 析 中 ， 如 于 对 数据 进行 深度 考察 ， 往 往 会 没有 止境 ， 寻 致 
在 不 必要 的 分 析 上 花费 很 多 时 间 。 为 了 防止 这 种 情况 的 发 生 ， 重 要 的 是 
在 数据 分 析 之 前 建立 假设 ， 并 每 次 参照 这 个 假设 进行 分 机， 那么 我 们 再 
来 看 看 本 例 中 事先 建立 的 假设 。 























1.《 黑 猫 拼图 》 游 戏 的 用 户 数 量 相 比 上 月 减少 了 ( 事实 ) 
2. 某 些 用 户 群 的 用 户 数量 减少 了 ( 假设 ) 
3. 针对 该 用 户 群 制定 相应 的 措施 ， 使 用 户 数量 回 到 和 上 月 相同 的 
水 平 ( 解决 方案 ) 
根据 上 述 假设 ， 我 们 将 之 前 数据 分 析 的 结果 总 结 如 下 。 
1.《 黑 猫 拼图 》 游 戏 的 用 户 数 量 相 比 上 月 减少 了 ( 事实 ) 
2. 使 用 Android 手机 的 用 户 群 数量 显著 减少 了 ( 事实 ) 
3. 弄 清 楚 Android 手机 端的 问题 ， 并 制定 相应 的 改善 策略 ， 使 用 户 
数量 回 到 和 上 月 相同 的 水 平 ( 确信 和 度 较 高 的 解决 方案 ) 


根据 分 析 的 结果 ， 和 游戏 开发 部 门 确认 后 ,得 知 9 月 12 日 Android 
版 应 用 进行 了 一 次 版 本 升级 。 给 他 们 看 了 数据 后 ， 被 告知 已 确认 某 些 机 
型 在 测试 中 没有 问题 ,但 是 不 能 确定 旧 的 机 型 是 否 也 能 够 通过 测试 。 于 
是 ,我们 将 用 户 数 减 少 的 机 型 数据 导出 ， 并 再 度 咨询 他 们 的 意见 ， 发 现 
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这 些 机 型 的 共同 点 是 都 安装 了 旧版 本 的 Android 系统 。 当 这 些 机 型 中 
的 应 用 升级 后 ， 用 户 就 无 法 登录 游戏 了 。 于 是 ， 公 司 紧急 修复 了 这 个 
版 本 的 系统 。 

我 们 将 整 件 事情 辐 社交 游戏 事业 本 部 的 部 长 做 了 汇报 ， 部 长 高 兴 地 
对 我 们 的 工作 表示 了 感谢 :“ 你 们 利用 数据 找 出 了 问题 的 原因 ， 还 给 出 了 


具体 的 解决 方案 ， 真 是 非常 感谢 啊 。 
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小 结 





本 章 我 们 利用 交叉 列表 统计 进行 了 用 户 群 的 分 析 。 

我 们 抓 住 和 上 月 相 比 用 户 数 减少 了 这 样 一 个 问题 ， 探 究 了 这 个 问题 
的 原因 。 辣 上 一 章 一 样 ， 在 进行 数据 分 析 之 前 ， 尽 可 能 地 听取 了 相关 部 
门 的 意见 ， 并 营 握 了 一 定 的 事实 依据 。 但 即便 如 此 ， 也 会 有 无 法 找 出 问 
题 原 因 的 情况 。 

在 本 革 的 示例 中 ， 出 现 了 不 好 的 现象 却 无 法 找 出 原因 ， 需要 我 们 找 
出 到 底 是 哪里 出 了 问题， 这 就 是 探索 型 数据 分 析 。 在 验证 过 程 中 会 伴随 














很 多 次 失败 的 尝试 ， 因 此 知 要 根据 最 初 的 假设 ， 进 一 步 深 挖 数据 ， 不断 
探 完 问题 的 原因 所 在 ， 这 才 是 最 重要 的 。 
为 外 ， 数 据 分 析 的 委托 方 最 好 能 够 和 数据 分 析 师 分 圣 问 题 可 能 的 原 
， 这 样 能 够 提高 数据 分 析 的 效率 ， 有 助 于 早日 解决 问题 。 
分 析 流 程 第 4 章 中 数据 分 析 的 成 本 
现状 和 预期 


发 现 问题 








数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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人 千 细 的 愉 代 三 





读 入 CSYV 文件 


# 读 入 CSV 文 件 Wy 


dau <- read.csv('"section4-dau.csv'", header = T, stringsAsFactors = F) 
head (dau) 
Use qread eesv seenond Doereaimio Rss 二 





stringsAsFactors = F) 
head (user .info) 


利用 read .csv 羡 数 将 下 面 的 第 一 段 数据 谈 人 到 dau 数据 存储 空间 
里 ， 这 样 每 天 访问 该 应 用 的 用 户 ID 就 全 部 谈 人 了。 

然后 是 user.info。 这 里 包含 了 各 个 用 户 的 属性 数据 ， 其 中 包括 首 
次 使 用 日 期 、 应 用 名 称 、 用 户 ID、 人 性 别 、 年 龄 段 、 使 用 的 移动 终端 类 
型 。 例 如 ,第 1 行 的 数据 表示 在 2013 年 4 月 15 日 首次 使 用 game-01 应 
用 的 用 户 ID 是 1， 该 用 户 是 一 名 男性 用 户 ， 年 龄 在 40~49 岁 ， 使 用 的 
是 iOS 的 移动 终端 。 
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## log date app name user id 


机 之 在 2013 年 8 月 1 日 ,ID 为 33754 的 


樟 2 2013-08-01 game-01 28598 用 户 使 用 了 game-01 : 
; ## 3 2013-08-01 game-01 30306 


## 4 2013-08-01 game-01 117 
## 5 2013-08-01 game-01 6605 
## 6 2013-08-01 game-01 346 


##t install date app name user id gender generation device type 


崖 2013-04-15 game-01 i M 40 i05 | 之 用 户 ID 为 


## 2 2013-04-15 game-01 2 M 10 Android 1、 年 龄 
在 40~49 ， 
## 3 2013-04-15 game-01 3 F 40 i0S 岁 、 使 用 | 
!: ## 4 2013-04-15 game-01 4 M 10 Android iOS 的 男 ! 
| 振 5 2013-04-15 game-01 5 M 40 ios ”性 使 用 了 | 
; 振 6 2013-04-15 game-01 6 M 40 10g game-01 | 


合并 DAU 和 user.info 的 数据 





# 将 DAU 数 据 和 user . info 数 据 合 并 e495 
da ser nio meragelaa YUSer einornnm be =e Ser Id oops 
name")) 


head (dau.user.info) 


user 1d app name| lo0og date install date gender generation device type 
1 game-01l 2013-09-06 2013-04-15 M 40 10S 





| 1 game-01|2013-09-05 2013-04-15 M 40 i0S | 
1 game-01| 2013-09-28 2013-04-15 M 40 i0S | 
I 1 game-01|2013-09-12 2013-04-15 M 40 i08 | 
| 1 game-01|2013-09-11 2013-04-15 M 40 i0S |! 
| 1 game-01| 2013-09-08 2013-04-15 M 40 i08 | 
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这 样 就 在 user .info 的 用 户 属 性 信息 里 增加 了 DAU 中 关于 用 户 访 
问 日 期 的 信息 。 由 于 用 户 是 否 使 用 了 该 应 用 的 信息 和 用 户 上 自身 的 属性 信 
息 已 经 被 归纳 到 同一 个 数据 集 里 ， 因 此 下 面 就 可 以 进行 数据 分 析 了 。 


用 户 群 分 析 ( 按 性 别 统计 ) 


# 增加 一 列表 示 月 从 0 


dau User emto oo men subsbr (du User nio loondasee 1 ay 
tablelgau user miol el loo moneh agender ln 




















首先 使 用 substz 图 数 从 按 日 统计 的 数据 log date 中 提取 出 年 份 
和 月 份 的 信息 。 在 进行 交叉 列表 统计 时 ， 需 要 用 到 table 这 个 水 数 。 
输入 table (AAA[,c ("XX", "YY")])， 将 AAA 数据 的 属性 XX 和 YY 
进行 交叉 列表 统计 并 输出 。 
交叉 列表 统计 就 是 计算 各 个 属性 下 有 多 少 样本 数 ， 是 数据 分 析 中 最 
初级 的 一 种 分 析 。 
## gender 
## log month F M 
## ”2013-08 47343 46842 
## 2013-09 38027 38148 


通过 上 述 内 容 可 以 看 出 性 别 这 一 用 户 群 的 影响 。 通 过 比较 2013 年 8 
月 和 9 月 男女 用 户 的 数量 ， 可 以 看 出 两 个 用 户 群 的 数量 都 下 降 了 ， 但 各 
自 的 构成 比例 却 大 体 上 没有 发 生变 化 ， 所 以 性 别 这 个 属性 对 现在 的 问题 
影响 不 大 。 
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用 户 群 分 析 ( 按 年 龄 段 统计 ) 





R-CODE 





aoleuqawauserennkeo ch lo month onerarreon ll 


## generation 

## log month 10 20 30 40 50 
## 2013-08 18785 33671 28072 8828 4829 
## 2013-09 15391 27229 22226 7494 3835 


| 


这 里 也 是 比较 上 下 两 行 的 数值 ， 可 以 看 出 在 8 月 和 9 月 ， 无 论 哪 个 
年 龄 段 的 用 户 ， 所 占 总 用 户 的 比例 大 体 上 都 没有 变化 ， 没 有 发 现 哪个 年 
龄 段 的 用 户 效 大 量 减少 了 。 





用 户 群 分 析 〈 按 性 别 x 年 龄 段 统计 ) 


R-CODE 
library (reshape2) 9s, 


deast dau user into ommenth ocngder generat lion Valu var 
nn ee) 





要 想 进行 n 重 交 又 列表 统计 ， 需 要 使 用 reshape2 库 。reshape2 
库 提供 了 各 种 数据 前 期 处 理 所 需 的 工具 ， 深 受 数 据 分 析 师 喜爱 。 这 里 我 
们 使 用 的 就 是 这 个 库 中 的 dcast 图 数 。 

输入 dcast (AAA,XX~YY+Z2,value.var=nCcccn, Length) ， 对 数据 
AAA 中 的 XX( 纵 轴 ) 和 YYxzz( 横 轴 ) 进行 交 义 列表 统计 。 后 面 的 
value.var=ncccn ,Length 表示 这 个 交叉 列表 中 的 数值 为 相应 的 ccc 
的 个 数 。 
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## 1og monthF 10 PR 20 F30F40F50M10 M20 M30M40M50 
## 1 2013-08 9091 17181 14217 4597 2257 9694 16490 13855 4231 2572 
## 2 2013-09 7316 13616 11458 3856 1781 8075 13613 10768 3638 2054 


| 


通过 观察 上 述 结果 可 以 看 到 ， 上 面 的 分 析 是 以 性 别 和 年 龄 段 的 交叉 属 
性 作为 分 析 轴 的 。 通 过 “gender + generation” 这 样 的 方式 来 指定 性 别 
和 年 龄 段 的 结合 ， 将 这 两 种 属性 通过 “ ”连接 起 来 ， 并 生成 了 分 析 轴 。 

通过 观察 统计 的 数据 ， 可 以 看 出 这 里 每 个 用 户 群 的 用 户 数量 都 减 
少 了 ， 所 占 的 比例 也 大 体 没 有 变 ， 并 没有 发 现 哪个 用 户 群 的 人 数 大 量 减 
a 





用 户 群 分 析 ( 按 设备 统计 ) 


最 后 我 们 来 分 析 用 户 使 用 的 移动 终端 ， 对 设备 的 类 型 进行 交叉 列表 
统计 。 


### device type 
## log month Android i058 


2013-08 46974 47211 
### 一 相 比 iOS 用户, 9 月 份 Android 用户 的 
## 2013-09 29647 | 46528 数量 比 8 月 急剧 减少 


结果 我 们 发 现 ,，9 月 的 10S 用 户 数 相 比 8 月 下 降幅 度 很 小 ， 然 而 
Android 用 户 数 却 极 大 地 减少 了 ， 因 此 问题 很 可 能 就 出 目 这 个 用 户 群 了 。 
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用 户 群 分 析 结 果 的 可 视 化 


R-CODE 


# 按照 日 期 和 设备 类 型 计算 用 户 数 ay 
dou user eiodev ee summery. ad qu loodare, 
devy ieeey eel eumnmaerize du lenagehn userelng 








# 变换 日 期 类 型 
dou user en 
as Datel(ldau user nfo deviece sunmery > loo dabe) 


# 画 出 时 间 序 列 趋势 图 
library (ggplot2) 
library (scales) 


limits <- c(0, max(dau.user.info.device.summary$dau)) 
goploE (dou user mo device su es 0 log qare yd 
eol deviceqe pe Ie deviceqe pe nape=devr ee ey sr 

geom lune lwa= lr 

geompount (size=4 0 

sealeny eonelinvous (opel comma LI mes lms 


py 
2,000- 人 sa 4 
个 ee ! 
: 1 
4 | oe . 
人 rh 
i 
1,500- 一 一 一 一 -一 一 
及，， 人 人 2 
全 J 
四 
A 
A a device type 
©- Android 
SS 1,000- 四 iOS 
500- 
0- 
1 1 1 1 1 
8 01 8 15 9 01 9 15 10 01 
log_date 








从 上 图 可 以 看 出 ， 之 前 10S 和 Android 的 用 户 数 大 体 相 当 ， 但 是 从 
9 月 的 第 2 周 开 始 ，Android 用 户 数 急剧 减少 。 
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[分 析 基 础 ] 篇 


第 5 章 
案例 人 @ 一 A/B 测试 


哪 种 广告 的 效果 更 好 


广告 的 A/B 测 试 

某 个 促销 活动 每 月 都 会 开展 一 次 ， 但 和 公司 内 其 他 类 似 的 促 
销 活动 相 比 ， 该 促销 活动 的 用 户 购买 率 比较 低 。 通 过 调查 用 
户 购买 率 低 的 原因 ， 发 现 问题 可 能 出 在 促销 活动 的 广告 上 。 
于 是 我 们 准备 了 两 种 不 同 的 广告 ， 来 验证 哪 种 广告 能 够 带 来 
更 高 的 用 户 购买 率 ， 那 么 我 们 应 该 如 何 来 比较 呢 ? 
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本 现 状 和 预期 








促销 活动 的 购买 率 低 
在 《 墨 猫 拼图 》 游戏 中 ， 公 司 每 月 都 会 开展 游戏 装备 的 促销 活动 。 
虽然 这 种 促销 活动 是 一 种 销售 比率 很 高 的 重要 经 营 胰 略 ， 然 而 公司 的 经 
营 层 却 指 出 “虽然 促销 活动 的 销售 额 较 高 ， 但 购买 率 却 比较 低 ”"。 实 际 
上 ,通过 和 其 他 应 用 的 促销 活动 相 比 较 ， 我 们 发 现 《 黑 猫 拼图 》 游 戏 的 
促销 活动 的 购买 率 确实 侦 低 。 
因此 ， 我 们 希望 能 够 通过 数据 分 析 找 出 购买 率 偏 低 的 原因 ， 改 善 这 
种 状况 。 
促销 活动 广告 的 点 击 率 比较 必 黑 猫 拼 图 》/ 公司 其 他 应 用 ) 
应 用 名 称 
《 黑 猫 拼图 》 
应 用 人 A 
应 用 B 


整理 现状 和 预期 


首先 ， 我 们 来 整理 一 下 问题 的 现状 和 预期 。 目 前 的 现状 是 : 和 其 他 
应 用 的 促销 活动 相 比 ,《 墨 猫 拼图 》 的 游戏 装备 促销 活动 的 购买 率 侦 低 。 
针对 这 个 问题 ， 我 们 的 预期 是 弄 清 楚 购 灭 率 俩 低 的 原因 ， 并 确 你 和 其 他 
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应 用 的 促销 活动 有 相同 的 购买 率 。 






希望 能 够 提升 
到 和 其 他 应 用 
相同 的 购买 率 










和 其 他 应 用 
相 比 购买 率 偏 低 


第 5 章 中 的 现状 和 预期 
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发 现 问题 





和 其 他 应 用 有 何不 同 


首先 ， 为 了 明确 现状 和 预期 之 间 的 差 跑 ， 我 们 需要 从 大 的 视角 出 发 
来 思考 《 黑 猫 拼图》 游戏 和 其 他 应 用 有 何不 同 ， 并 尝试 做 出 假设 。 











1. 游戏 装备 促销 活动 的 内 容 有 问题 

> 销售 的 游戏 装备 并 不 是 用 户 需 要 的 

> 促销 打折 的 力度 不 够 ， 对 用 户 没 有 太 大 吸引 力 
2. 广告 的 外 观 展示 有 问题 


总 之 我 们 先 做 出 上 述 两 种 假设 。 首 先 针 对 第 1 个 假设 ， 我 们 咨询 了 
《 黑 猫 拼图 》 游 戏 的 策划 部 门 ， 并 从 那里 得 到 了 如 下 反馈 。 





e@ 游戏 装备 促销 活动 中 出 售 的 游戏 装备 或 许 能 够 用 得 上 
@ 和 其 他 应 用 一 样 ， 促 销 时 的 游戏 装备 打 五 折 ， 这 从 用 户 的 立场 来 
看 是 很 划算 的 


之 后 ， 我 们 统计 了 在 促销 期 间 出 售 的 游戏 法 备 的 使 用 情况 ， 发 现 这 
些 竣 备 是 当时 最 第 被 使 用 的 朔 备 ， 用 户 对 这 些 装 备 是 有 需求 的 。 也 就 是 
说 ， 上 述 第 1 个 假设 中 的 问题 基本 不 大 。 

我 们 再 来 考虑 第 2 个 假设 。 为 了 获得 和 第 2 个 假设 相关 的 信息 ， 我 
们 咨询 了 负责 《 黑 猎 拼 图》 游戏 市 场 营 销 的 部 门 ， 并 从 那里 得 到 了 如 下 
反馈 。 
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e 游戏 装备 大 促销 的 广告 都 是 由 各 个 应 用 的 设计 师 负责 的 ， 所 以 广 
告 的 质量 也 是 参差 不 齐 
e《 黑 猫 拼图 》 游 戏 的 广告 的 点 击 率 一 直 比 较 低 ( 参考 下 表 ) 


这 次 的 问题 如 人 就 是 第 2 个 假设 造成 的 。 因 此 ， 这 次 我 们 将 提升 广 
告 的 点 击 率 作为 课题 来 进行 数据 分 析 。 
促销 活动 广告 的 点 击 率 比较 (《 黑 猫 拼图 》/ 公司 其 他 应 用 ) 
应 用 名 称 
《 黑 猎 拼图 》 
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5 数据 的 收集 和 加 工 





探讨 验证 方法 
我 们 来 总 结 一 下 本 案例 的 问题 和 解决 方案 。 


e《 黑 猫 拼图 》 游 戏 的 广告 点 击 率 比 其 他 应 用 低 ( 事实 ) 
@《 黑 猫 拼图 》 游 戏 的 广告 设计 有 问题 ( 假设 ) 
@ 用 点 击 率 高 的 广告 蔡 换 目 前 所 使 用 的 广告 ( 解决 方案 ) 


为 了 完成 上 述 方案 ， 需 要 找到 哪 种 广告 更 容易 被 点 击 。 但 是 ， 在 
《 黑 猫 拼图 》 游 戏 中 ， 之 前 每 月 开展 的 “游戏 逆 备 大 促销 ”活动 的 广告 
一 下 都 没有 变更 过 ， 因 此 我 们 缺少 可 供 分 析 的 数据 。 

于 是 ， 我 们 准备 了 两 个 不 同 的 广告 ， 通 过 收集 数据 来 比较 哪个 广告 
对 容易 被 用 户 点 击 。 


国 如 果 采 用 前 后 比较 的 方法 ， 则 无 法 排除 外 部 因素 的 干扰 

如 果 要 比较 两 个 广告 哪个 更 好 ， 该 怎么 做 呢 ? 首先 想到 的 是 前 后 比 
较 的 方法 。 如 下 图 所 示 ， 在 前 一 段 时 间 内 投放 广告 A， 在 后 一 段 时 间 内 
投放 广告 B， 并 比较 前 后 两 个 时 间 段 广告 投放 的 效 末 。 
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前 后 比较 前 后 比较 


提升 了 O% 


| 
TE 





时 间 ] 


时 间 
广告 的 前 后 比较 


在 这 种 情况 下 , 广告 A 和 广告 B 的 比较 如 右 图 所 示 ， 其 思路 是 “如 
果 继 续 投 放 广 告 A， 购 买 率 应 该 是 这 样 ”， 然 后 拿 这 个 值 和 广告 了 B 的 值 
进行 比较 。 

然而 ， 这 种 做 法 真是 正确 的 吗 ? 

比如 ， 在 投放 广告 A 和 广告 B 的 时 间 里 : 


e 投放 广告 B 的 时 候 是 购买 率 比 较 容易 提升 的 时 候 

® 投放 广告 B 的 时 候 ， 某 个 宣传 活动 获得 了 巨大 成 功 

e 投 放 广告 B 的 时 候 ， 在 TVCM 的 放映 或 者 电视 节目 中 介绍 了 
《 黑 猫 拼图 》 游 戏 

@ 投放 广告 A 的 时 候 …… 


如 上 所 示 ， 本 来 我 们 只 是 希望 比较 广告 A 和 广告 B 这 二 者 的 效果 ， 
然而 中 间 却 出 现 了 各 种 外 部 因素 的 干扰 。 如 果 是 外 部 因素 导致 的 购买 率 
提升 ， 那 么 就 有 可 能 像 下 图 一 样 ， 即 使 继续 投放 广告 A， 购 买 率 也 会 提 
升 。 这 样 的 话 就 很 难 知道 前 后 购买 率 差 异 的 原因 到 搬 是 什么 了 。 
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即使 继续 投放 广告 A， 购 买 率 也 能 提升 ? 


_ 斑 





时 间 ] 


国 采 用 A/B 测 试 的 方法 排除 外 部 因素 干扰 

针对 这 种 情况 ， 一 种 便利 的 验证 方法 是 A/B 测试 。A/B 测试 能 
在 多 个 选项 中 找 出 那个 能 够 帘 来 最 佳 结 来 的 选项 。 例 如 ， 如 下 图 所 示 ， 
我 们 只 要 同时 投放 广告 A 和 广告 B， 就 可 以 排除 之 前 所 说 的 外 部 因素 的 
Te 


前 后 比较 A/B 测 试 
. : 
| 站 
' ”貌似 B 会 B ' ”实际 上 A 的 


更 好 些 。 效果 更 好 





时 间 时 间 
前 后 比较 和 A/B 测试 的 不 同 








A/B 测试 虽然 在 引入 时 需要 较 高 的 开发 成 本 ,但 是 实施 成 本 却 相 对 
较 低 ， 而 且 也 方便 收集 统计 数据 ， 因 而 在 互联 网 业界 被 广泛 使 用 ， 此 外 
在 部 分 广告 业 和 制造 业 中 也 会 被 采用 。 例 如 ， 菏 个 厂家 生产 了 A 和 B 
两 种 产品 并 同时 出 售 ， 通 过 收集 销售 数据 来 验证 哪个 产品 更 容易 被 目标 
用 户 和 群体 接受 。 虽 然 在 这 种 情况 下 进行 A/B 测试 的 成 本 较 高 ， 但 由 于 能 
够 针对 同一 时 期 的 同一 目标 用 户 群 体 进 行 因果 关系 分 析 ， 因 此 有 着 广泛 
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的 应 用 。 


国 A/B 测 试 中 的 用 户 分 组 必须 遵循 随机 的 原则 

在 进行 A/B 测试 时 ， 首 先 需要 将 用 户 分 到 A 组 或 B 组 中 ， 然 后 给 
A 组 的 用 户 投放 广告 A, 给 B 组 的 用 户 投放 广告 B， 再 比较 两 组 用 户 
的 购买 率 。 其 中 需要 注意 的 是 如 何 进 行 分 组 ， 比 如 按照 如 下 方法 来 分 组 
如 何 ? 





@A 组 : 男性 
eB 组 : 女性 


按照 这 样 的 分 法 ,或 许可 以 排除 诸如 时 间 因 素 、 游 戏 内 的 各 种 活 
动 、TVCM 等 的 影响 ,但 是 男性 用 户 和 女性 用 户 本 和 号 在 游戏 中 的 消费 倾 
问 就 有 可 能 存在 差异 。 另 外 ， 虽 说 可 以 排除 TVCM 的 有 影响, 但 是 由 于 
男女 用 户 在 观看 电视 节目 的 时 间 和 瘟 好 等 方面 存在 差异 ， 因 此 这 些 都 有 
可 能 对 最 终 的 结果 产生 影响 。 

总 之 ， 需 要 保证 分 组 后 的 两 组 不 能 有 类 似 于 “男女 ”这 种 条 件 性 的 
差异 。 进 行 A/B 测试 最 初 的 目的 就 是 要 排除 广告 以 外 的 因素 的 影响 ， 单 
纯 比 较 广 告 内 容 方面 的 差异 。 

要 想 避 免 条 件 性 的 差异 ， 最 简单 的 一 种 分 组 方法 就 是 把 用 户 ID 对 
某 个 数 进行 取 模 运算 。 如 果 使 用 这 种 方法 ， 那 么 下 列 条 件 就 都 能 够 均匀 
地 散布 在 两 个 组 中 。 























e 性 别 
9 年 龄 段 


@ 应 用 安装 时 间 


国 同 时 进行 多 个 A/B 测 试 时 的 陷阱 

A/B 测试 是 将 测试 对 象 随机 分 为 A、B 两 组 ， 然 后 比较 两 组 之 间 差 
异 的 验证 方法 ,但 是 有 的 企业 会 在 同一 时 间 开 展 多 个 A/B 测试 。 在 这 种 
情况 下 ， 就 算 这 些 A/B 测试 各 目 使 用 了 上 述 方法 来 对 用 户 进行 分 组 ， 彼 
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此 之 间 仍 有 可 能 相互 干扰 。 下 面 我 们 来 举 几 个 测试 失败 的 案例 。 


中 所 有 的 A/B 测试 都 采用 相同 的 分 组 方法 
@) 各 组 中 参与 其 他 测试 的 用 户 比 例 不 同 





(QD 例 中 ， 因 为 所 有 测试 使 用 的 都 是 相同 的 分 组 方法 ， 所 以 就 算 两 组 
的 表现 有 差异 ， 也 不 可 能 知道 这 种 差异 到 底 是 由 哪个 测试 引起 的 。 而 在 
@) 例 中 ， 虽 说 是 随机 分 组 的 ， 但 实际 上 各 组 中 参与 其 他 测试 的 用 户 比 例 
互 不 相同 ， 此 时 也 会 出 现 测 试 项 目 以 外 的 条 件 性 差异 。 在 这 种 情况 下 ， 
我 们 需要 事先 考虑 分 组 时 如 何 才能 不 包含 已 参与 其 他 测试 的 用 户 ， 这 样 
测试 结果 才 可 信 。 然 而 ， 受 到 其 他 测试 的 分 组 方法 的 影响 ， 这 样 做 可 能 
也 会 遇 到 困难 。 例 如 ， 如 有 果 通 过 对 某 个 数值 取 模 看 余数 是 否 为 1 来 划分 
用 户 ， 那 么 我 们 很 容易 找到 不 在 该 用 户 组 里 的 其 他 用 户 。 然 而 ， 如 果 是 
通过 指定 取 值 范围 而 得 到 的 用 户 组 ， 比 如 说 对 某 个 值 取 模 余 数 为 1~5 的 
用 户 ， 则 很 难得 到 不 与 这 个 用 户 组 发 生 重 登 的 分 组 。 

在 这 种 情况 下 ， 束 需要 错开 各 个 测试 的 实施 时 则 ， 或 者 事先 比较 A 组 
和 B 组 的 KPI (Key Performance Indicator， 关 键 绩效 指标 ) 的 变化 ， 确 
认 没 有 差 寞 后 再 测试 。 在 社交 游戏 中 ,一般 的 KPI 有 PV (访问 次 数 、 
DAU ( 每 日 活跃 用 户 数 )、ARPU ( 人 均 消费 金额 )、 持 续 率 、 付 费 率 等 。 
国 利 用 统计 学 上 的 假设 检验 来 过 滤 

不 光 是 在 A/B 测试 中 ， 平 时 当 我 们 需要 判断 两 组 之 间 是 否 存 在 差异 
时 ， 都 可 以 用 到 统计 学 上 的 “假设 检验 ”。 





























® 即使 考虑 到 用 户 数 ( 样本 数 ) 较 少 导致 的 偏差 ， 也 依然 可 以 说 两 
组 间 存 在 差异 吗 


要 硝 认 这 一 点 ， 这 就 需要 用 到 假设 检验 的 方法 。 在 用 户 数 (样本 
数 ) 较 多 的 情况 下 ， 大 多 数 的 结果 都 是 “存在 显著 性 差异 ”。 

那么 ,“ 用 户 数 较 少 导致 的 偏差 ” 指 的 是 什么 呢 ?” 比 如 ， 两 组 都 只 
有 5 人， 本 来 两 组 间 不 存在 购买 率 的 差异 ,但 现在 其 中 一 组 的 某 个 用 户 
偶然 做 出 了 下 述 行为 : 
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e@ 平常 从 来 不 买 ， 但 这 次 却 偶然 买 了 
e@ 平常 经 常 购买 ， 但 这 次 却 偶然 没有 购买 





那么 该 用 户 的 这 种 偶然 的 行为 就 会 给 两 组 市 来 差 寞 。 在 用 户 数 较 少 
的 情况 下 ， 菏 一 个 用 户 的 侦 然 行为 痢 可 能 对 结 末 造 成 较 大 的 影响 。 但 当 
用 户 数 增多 时 ， 这 种 影响 就 会 逐渐 消失 。 因 此 ， 使 用 假设 检验 时 ， 人 数 
越 多 ， 越 容易 得 出 “存在 显著 性 差异 ”的 结论 。 

然而 ， 即 使 “存在 显著 性 差异 ”*”， 这 种 差异 在 商业 领域 也 未 必 有 意 
义 。 尤 其 是 在 大 数据 右 行 的 现在 ， 由 于 数据 量 的 增 大 ,假设 检验 中 “用 
户 数 较 少 导致 的 俩 差 ” 已 经 很 小 了 ， 因 此 我 们 很 难 再 断言 “不 做 假设 检 
验 就 不 知道 是 否 存在 显著 性 差异 ”的 那些 差异 还 有 意义 。 

尽管 如 此 ， 万 一 出 现 了 “看 上 去 像 是 有 差异 ， 而 实际 上 不 是 显 阁 性 
差异 ”的 情况 还 是 很 麻烦 的 ， 因 此 我 们 需要 通过 假设 检验 来 过 滤 出 显著 
性 差 寞 。 这 里 并 不 是 说 只 要 “通过 假设 检验 找 出 差 寞 ”就 可 以 了 ， 而 是 
要 “ 先 通过 假设 检验 找 出 有 统计 意义 的 差异 ， 再 探讨 这 个 差异 在 商业 活 


动 中 是 否 有 意义 ”。 



























































收集 和 加 工 验证 所 需要 的 数据 


国 A/B 测 试 的 日 志 输 出 

确定 了 验证 方法 之 后 ， 接 看 就 要 考虑 如 何 收集 数据 了 。 击 面 说 过 ， 
现在 我 们 还 没有 任何 可 用 的 数据 ， 所 以 需要 和 《 墨 猫 拼图 》 游 戏 的 开发 
人 员 协 商 ， 请 他 们 输出 如 下 日 志 ， 以 方便 我 们 进行 A/B 测试 。 





@ ab _ test_imp (关于 广告 曝光 次 数 的 信息 ) 
@ ab_test_goal ( 关于 广告 点 击 次 数 的 信息 ) 











具体 的 数据 如 下 所 示 。 
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@ab _ test _ imp 


数据 内 容 数据 类 R 语言 中 的 标识 
广告 曝光 日 期 string ( 字符 串 ) log_date 





测试 名 string ( 字符 串 ) test-name 


测试 用 例 (人 或 B) string ( 字符 串 ) test Case 
int ( 数值 ) user_id 
int ( 数值 ) transaction_id 


数据 内 容 数据 类 R 语言 中 的 标识 
广告 点 击 日 期 string ( 字符 串 ) log_date.g 














@ ab_test_goal 





测试 名 string ( 字符 串 ) test_name.g 


测试 用 例 (人 或 B) string ( 字符 串 ) test cased 


※ 事务 ID : 广告 曝光 时 生成 的 ID 号， 可 以 作为 key 来 合并 曝光 日 志和 
是 二 日 十 。 











国 分 析 前 的 数据 加 工 
为 了 方便 A/B 测试 的 分 析 ， 我 们 需要 将 上 述 两 份 日 志 合并 起 来 。 具 


体 可 按 如 下 步 又 对 数据 进行 加 工 。 全 


1. 将 广告 的 上 曝光 次 数 信息 和 点 击 次 数 信息 合并 起 来 
2. 生成 一 个 新 的 标志 位 来 标识 该 条 记录 是 否 被 点 击 


@ 完成 上 述 处 理 后 的 数据 
事务 ID 曝光 日 期 测试 用 例 用 户 ID 是 否 被 点 击 





2013 年 -10 月 2 目 49018 
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( 续 ) 
曝光 日 期 测试 用 例 用 户 ID 是 否 被 扩 击 


2013 年 10 月 2 日 44338 
2013 年 10 月 2 日 36098 














2013 年 10 月 2 日 20963 
2013 年 10 月 日 49776 


2013 年 10 月 2 日 48723 二 
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学 本 数据 分 析 





弄 清楚 人 和 B 的 点 击 率 是 人 否 存 在 显著 性 差异 


在 准备 好 各 种 分 析 所 需 的 数据 后 ， 我 们 来 统计 一 个 A 和 B 两 个 广 
告 的 点 击 率 ， 以 确认 哪个 广告 的 效果 更 好 。 
全 





点 击 率 
0.08026 





0.11546 





观察 A 和 B 的 点 击 率 ， 我 们 发 现 A 的 点 击 率 为 0.08026， 大 约 是 
8%， 而 B 的 点 击 率 为 0.11546， 大 约 是 12%。 在 探讨 这 二 者 的 差异 之 
有 前， 首先 需要 对 其 进行 假设 检验 。 像 本 例 这 样 ， 针 对 两 种 广告 点 击 情况 
的 差异 来 进行 假设 检验 ， 一 般 采 用 的 是 卡 方 检验 。 © 











针对 上 例 进行 卡 方 检验 ， 其 结果 的 p 值 为 2.2e-16， 也 就 是 2.2x10”"， 
是 一 个 非常 小 的 数值 。p 值 越 接 近 于 0 差异 性 越 大 。 通 常 来 说 ， 当 p 值 
小 于 0.05 时 ， 称 为 “存在 显著 性 差异 ”。 至 于 为 什么 是 “0.05”， 各 个 领 
域 对 这 个 问题 都 有 讨论 ， 请 读者 自行 参考 其 他 的 专业 书籍 。 在 本 例 中 ， 
由 于 p 值 非常 接近 于 0， 因此 我 们 可 以 说 : 在 将 两 种 广告 分 为 A 和 B 并 
同时 投放 后 ， 所 得 到 的 点 击 率 存 在 显著 性 差异 。 
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在 确认 了 二 者 “存在 显 车 性 差异 ”后 ， 我 们 再 来 看 这 种 差异 在 商业 
领域 里 是 否 有 意义 。 在 本 例 中 ， 原 来 广告 的 点 击 率 只 有 6%， 而 其 他 应 
用 的 广告 的 点 击 率 为 12%。 为 了 填补 这 个 差异 ， 我 们 进行 了 测试 。 通 过 
观察 结 采 可 以 发 现 广 告 B 的 点 击 率 达 到 了 大 约 12%， 基 本 上 达到 了 我 们 
的 目的 ， 因 此 在 商业 领域 里 这 也 是 一 个 有 意义 的 差异 。 最 后 ， 我 们 再 确 
认 一 下 点 击 率 的 时 间 序 列 变化 情况 。 在 时 间 序 列 图 中 ， 如 采 广 告 B 的 效 
末 始 终 都 比 广告 A 好 的 话 ， 那 就 没有 问题 ， 但 是 如 果 只 是 在 某 个 时 间 段 
内 广告 B 的 效果 更 好 ， 那 束 需 要 考虑 是 否 存 在 别 的 原因 了 。 将 广告 的 点 


击 率 变化 反映 在 散 点 图 上 ， 如 下 图 所 示 。 
®® 









































test_case 
-人 
-四 已 





5%" 





0%- 


930 10 07 10 14 10 21 10 28 
log_date 


广告 A 和 广告 B 的 点 击 率 的 时 间 序列 变化 


通过 上 图 可 知 ， 广告 B 的 点 击 率 在 大 多 数 时 候 部 优 于 广告 A。 所 以 
总 的 说 来 , 广告 B 的 效果 始终 都 比 广告 A 好 。 

也 就 是 说 ， 正 是 因为 我 们 改变 了 所 投放 的 广告 ， 所 以 点 击 率 也 随 之 
人 发生 了 变化 。 
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解决 对 策 








分 析 的 结果 是 , 广告 B 比 广告 A 更 容易 被 用 户 点 击 ， 因 此 我 们 需要 
在 《 黑 猎 拼图》 游戏 里 投放 广告 B。 今 后 ， 我 们 可 以 继续 通过 这 种 A/B 
测试 的 方式 来 找到 最 合适 的 广告 。 
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本 章 中 我 们 使 用 A/B 测试 对 广告 进行 了 分 析 。 

本 章 围绕 《 黑 猫 拼图 》 游戏 装备 大 促销 活动 中 购买 率 比 其 他 应 用 低 
的 问题 ， 通 过 咨询 相关 部 门 ， 明 确 了 造成 这 个 问题 的 原因 是 广告 的 点 击 

另外 ， 本 例 中 起 初 并 没有 可 用 于 分 析 的 数据 ， 所 以 我 们 通过 A/B 测 
试 来 收集 其 中 的 日 志 并 获取 分 析 用 的 数据 。 在 A/B 测试 上 线 后 ， 计 算得 
到 广告 A 和 广告 B 的 点 击 率 ， 并 对 其 进行 了 卡 方 检验 。 

结果 显示 , 广告 B 比 广告 A 更 容易 被 用 户 点 击 ， 因 此 此 次 在 《 黑 
猫 拼图 》 游 戏 中 应 使 用 广告 B。 而 且 今 后 我 们 可 以 按照 该 流程 ， 继 续 使 
用 A/B 测试 来 寻找 最 合适 的 广告 。 

分 析 流 程 第 5 章 中 数据 分 析 的 成 本 


发 现 问题 




















数据 的 收集 和 加 工 





数据 分 析 
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人 计 细 的 尺 代码 


合并 ab.test.imp 和 ab.test.goal 的 数据 





R-CODE 


4 读 入 数据 Se 


aeEeSEsu ReadgeesasscenonssaoeeseeunmoEcsw nsags = 
stringsAsFactors=F) 

ap Eeseygoal reagdresv (lsectlions apatestegoal cov header I 
stringsAsFactors=F) 


Hab ese nilar Ces aoal 

aD test iM mergelaD i tes imp oD est go "bransactionn 
Gn Bll em SU aase(ur WG)) 

head (ab.test .imp) 


利用 read.csv 阴 数 将 ab .test.imp 和 ab.test.goal 的 数据 从 
CSYV 文件 读 入 到 R 程序 里 ， 并 将 这 两 种 数据 通过 merge 因数 合并 起 来 。 


@ ab.test.imp ( 合并 后 ) 


## transaction id log date app name test name test case user id 


## 1 1 2013-10-02 game-01 sales test A 49017 
: ## 2 2 2013-10-02 game-01 sales test B 49018 
## 3 3 2013-10-02 game-01 sales test A 44338 : 
I #### 4 4 2013-10-02 game-01 sales test A 44339 
## 5 5 2013-10-02 game-01 sales test A 28598 
I ## 6 6 2013-10-02 game-01 sales test BB .30306 
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## log date.g app name.g test name.g test case.g user id.g 


## 1 <NA> <NA> <NA> <NA> NA 
## 2 <NA> <NA> <NA> <NA> NA 
## 3 <NA> <NA> <NA> <NA> NA 
## 4 <NA> <NA> <NA> <NA> NA 
## 5 <NA> <NA> <NA> <NA> NA 
## 6 <NA> <NA> <NA> <NA> NA 


生成 用 于 标识 点 击 ' 人 博 况 的 标志 位 


R-CODE 
# 增加 点 击 标志 位 502 


a Ee I 0 el (0 
head (ab.test .imp) 








上 述 代码 表示 在 ab.test.imp 数据 中 增加 is .goal 属性 。 

当 属 性 user_id.g 的 值 为 空 (NA ) 时 ， 属 性 is .goal 赋值 为 “0”， 
其 他 情况 下 属性 is .goal 赋值 为 “1”， 这 样 就 得 到 了 用 于 判定 是 否 进行 
了 点 击 的 标志 位 。 


统计 扣 击 率 
# 计算 点 击 率 eso3, 


library (plyr) 








doaply (oD Les me (ese ee unmer ey 
evr=sun(1s goal)/lengthn (user" gd 


计算 时 使 用 了 plyr 程序 包 中 的 ddply 函数 。 利 用 adply 函数 可 以 
对 ab.test.imp 数据 中 属性 test case 的 每 个 取 值 做 统计 。 通 过 “点 
击 的 人 数 总 和 /曝光 的 人 数 ” 算 出 点 击 率 ， 并 记录 到 属性 cvr 中 。 
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| 可 ”test_case cvr 之 广告 A 的 点 击 率 约 为 8%、 
: ## 1 A 0.08026 广告 B 的 点 击 率 约 为 12% ' 
， B 0.11546 


i ce i it i ee a i i i Vd tt ne i te bd et ed i i ee i i it tn i i te de i ed ie te ed i i i i i i i ee i dd te ee te ed i ee i i i tn ed i td, te ed i i ed i i te i i bd ee ei 








# 进 行 卡 方 检验 
chlo tese la Eese MO Ee Ee ee ee mp Sen 





在 RR 语言 中 可 以 使 用 chisq.test 国 数 来 进行 卡 方 检 验 。 


## Pearson's Chi-squared test with Yates' continuity correction 
### | 
## data: ab.test.imp$test case and ab.test.imp$is.goal 


Mh Xequared = 308.4, df = 1 二 p 值 为 22x 10 ,是 
一 个 相当 小 的 值 
算出 每 个 测试 用 例 的 点 击 率 
R-CODE 
# 算出 每 天 每 个 测试 用 例 的 点 击 率 \05-05/ 


ab.test.imp.summary <- 
do (aD Eege un oo de eee mae 
Mme = ner 
cv=sum(is.goal), 
cvr=sum(is.goal)/length (user id) ) 


# 算出 每 个 测试 用 例 的 点 击 率 
ab.test.imp.summary <- 
daplyvl(lab test mo Sunary (Eego ca transtonm 
cvr.avg=sum (cv) /sum (imp)) 
head (ab.test.imp.summary) 
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ddply 因 数 是 一 个 高 性 能 的 统计 工具 ， 应 用 非常 广泛 ， 这 里 不 细 说 
了 。 在 本 例 中 ， 我 们 使 用 ddply 函数 来 处 理 ab .test .imp 数据 ， 按 照 
log date 和 test case 进行 了 3 次 统计 计算 。 第 1 次 是 计算 user id 
数 的 总 和 并 记录 在 属性 imp 里 ; 第 2 次 是 将 is.goal 的 总 和 记录 在 属性 
cv 里 ; 第 3 次 是 用 属性 cv 的 值 除 以 属性 imp 的 值 ， 并 将 结果 记录 在 属 
性 cvr 里 。 也 就 是 说 ,我 们 在 这 里 统计 了 某 一 天 某 个 广告 被 曝光 了 多 少 
次 、 被 多 少 用 户 点 击 ， 以 及 点 击 率 是 多 少 。 

然后 ， 通 过 将 函数 中 的 “summarize” 蔡 换 成 “transform ”， 就 可 
以 将 统计 结果 追加 到 原来 的 数据 中 。 这 里 我 们 将 每 个 test_case 的 点 击 
率 追 加 到 了 原 数 据 中 。 








## log date test case imp cyv CVvr CVvr.avg 
## 1 2013-10-01 A 1358 98 0.07216 0.08026 
## 2 2013-10-02 A 1370 88 0.06423 0.08026 
## 3 2013-10-03 A 1213 170 0.14015 0.08026 
## 4 2013-10-04 A 1521 89 0.05851 0.08026 
## 5 2013-10-05 A 1587 56 0.03529 0.08026 
## 6 2013-10-06 A 1219 120 0.09844 0.08026 


可 以 看 到 ， 我 们 新 增加 了 属性 cvr .avg， 并 把 按照 test_case 统 
计 的 结果 保存 到 了 数据 当中 。 
在 数据 都 齐备 后 ， 下 面 我 们 来 将 数据 可 视 化 。 





生成 每 个 测试 用 例 的 点 击 率 时 序 图 





library (ggplot2) 
library (scales) 


ab etest im eumnmar vy Loodateq a Datelab Geese mp sunmnar yy loon 
date) 
limits <- c(0, max(ab.test.imp.summary$cvr)) 
qoplort leap es me sunmar ocx=loqdabe 三 <wn 
col=test case,lty=test case, shape=test case)) + 
geom Ine(dwd= 1 
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geom point (size=4) + 
gqecomal nelaes ly =ev avo col Gest ease Tr 
sealecry eoneinueous abel pereene Dimes= mais 


跟 之 前 一 样 ， 作 图 仍 需 使 用 ggplot2 工具 包 。 
在 使 用 ggplot 也 数 的 同时 ， 还 可 以 使 用 geom line、geom point 
等 呆 数 来 共同 生成 视图 。 上 面 的 代码 中 第 9 行 需 要 特别 说 明 一 下 : 





geom line (aes (y=cvr.avg,col=test case)) 


通过 上 述 代 人 码 可 以 看 出 ,除了 可 以 在 图 中 描绘 出 ggplot 函数 指定 
的 变量 ， 其 他 形式 的 数据 也 可 以 在 图 中 表现 出 来 。 


test_case 
-人 
B 


0%- 


9 30 10 07 10 14 10 21 10 28 
log_date 


广告 A 和 广告 B 的 点 击 率 的 时 间 序列 变化 
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[分 析 基 础 ] 篇 


第 6 章 
案例 @ 一 多 元 回归 分 析 


如 何 通过 各 种 广告 的 
组 合 获 得 更 多 的 用 户 


AT 





投放 传统 媒体 广告 的 最 优化 问题 


到 目前 为 止 我 们 已 经 在 互联 网 上 投放 了 《 黑 猫 拼图 》 游 戏 的 

广告 。 但 为 了 获得 更 多 的 用 户 ， 我 们 决定 也 在 传统 媒体 ( 电 

视 、 杂 志 ) 上 投放 广告 。 基 于 过 去 其 他 游戏 广告 的 数据 ， 我 

们 希望 能 够 获得 效果 最 好 的 广告 投放 方式 ， 那 么 我 们 该 怎么 
做 呢 ? 
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各 图 现状 和 预期 








互联 网 广告 和 传统 媒体 广告 


在 互联 网 上 投放 广告 ， 单 价 比 较 便 宜 ， 并 且 能 够 吸引 到 稳定 的 新 注 
册 用 户 。 虽 然 互 联网 广告 可 以 根据 投入 的 成 本 预 估 效果， 但 相对 于 电 
视 、 森 志 等 传统 媒体 来 说 ， 它 的 受众 数量 是 有 限 的 ， 因 此 要 想 使 用 户 达 
到 一 定数 量 ， 一 般 还 是 要 在 传统 媒体 上 投放 广告 。 然 而 ， 和 互联 网 广告 
相 比 ， 传 统 媒 体 的 广告 成 本 要 高 得 多 。 另 外 ， 如 下 图 所 示 ， 根 据 广告 投 
放 媒 体 的 属性 不 同 ， 广 告 效 果 CPI ( Cost Per Install， 获 得 一 个 新 用 户 所 
需 的 成 本 ) 的 变动 也 很 大 。 














L 同 要 化 
2,774 


2,486 2 443 2.388 2 375 2,451 


2282 


2013-01 2013-02 2013-03 2013-04 2013-05 2013-06 2013-07 2013-08 2013-0 


2,365 2,386 2 346 


month 


《 黑 猫 拼图 》 游 戏 在 传统 媒体 广告 上 的 CPI 时 间 序 列 变化 
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整理 现状 和 预期 





下 面 我 们 来 整理 一 下 现状 和 预期 。 首 先 ， 我们 所 面临 的 现状 是 广告 
效果 CPI 参差 不 齐 。 针 对 这 种 现状 ， 在 互联 网 广告 方面 ,我们 和 3 家 公 
司 保持 着 合作 ， 而 在 传统 媒体 的 电视 和 杂志 上 投放 广告 时 ， 我 们 选择 了 
一 家 广告 公司 进行 合作 。 该 广告 公司 建议 我 们 ， 对 于 目前 已 合作 的 10 
家 左右 的 媒体 ， 为 了 维持 展 好 的 合作 关系 ， 应 避免 连续 3 个 月 不 投放 广 
告 的 情况 。 根 据 这 个 建议 ,我 们 在 各 大 传统 媒体 上 部 投 放 了 广告 。 

这 其 中 我 们 需要 确定 在 电视 和 杂志 上 投放 广告 的 合适 比例 ( 当然 也 
可 以 让 广告 公司 来 蔡 我 们 完成 这 项 工作 )。 

总 之 ， 在 本 例 中 我 们 需要 在 已 有 合作 关系 的 媒体 中 决定 如 何 分 配 广 
告 投放 的 比例 ， 以 达到 “用 较 少 的 费用 获得 更 多 的 用 户 ” 的 目的 。 那 
么 ， 基 于 现 有 的 数据 ， 我 们 需要 弄 清 广告 和 获得 用 户 数量 之 间 的 因 采 关 
系 ， 并 找 出 最 合适 的 广告 投放 分 配 比例 。 下 面 我 们 先 找 出 问题 。 
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发 现 问题 








根据 下 图 所 示 的 广告 CPI 的 变化 可 知 ， 本 例 中 的 问题 是 每 月 广告 
CPI 的 波动 较 大 。 男 一 方面 ， 互 联网 广告 每 获得 一 个 用 户 的 成 本 大 约 在 
100 日 元 。 但 是 ， 互 联网 广告 的 覆盖 范围 比较 有 限 ， 那 些 不 怎么 接触 互 
联网 的 用 户 ， 平 时 可 能 只 是 偶尔 使 用 一 下 Facebook 或 者 LINE， 对 于 这 
些 用 户 ， 可 以 借助 电视 或 者 杂志 等 传统 媒体 提高 他 们 对 产品 的 认 知 度 。 

然而 ， 和 互联 网 广告 不 同 ， 电 视 和 杂志 属于 间接 型 媒体 ， 从 某 个 用 
户 通过 电视 广告 了 解 某 个 产品 并 产生 兴趣 ， 一 直到 该 用 户 尝试 购买 这 个 
产品 ， 中 间 存 在 着 一 定 的 时 间 间 阿 。 可 能 是 受 此 影响 ， 电 视 或 者 杂志 广 
告 的 CPI 高 达 几 生日 元 。 例 如 ， 如 下 图 所 示 ， 传 统 媒体 广告 的 月 平均 
CPI 在 2282 日 元 到 2774 日 元 之 间 波 动 。 

如 果 仅 仅 是 看 数值 ， 谈 者 可 能 会 觉得 月 平均 CPI 的 差距 并 不 大 。 但 
由 于 每 获得 一 个 用 户 的 成 本 都 很 高 ， 因 此 我 们 要 尽 可 能 地 缩小 这 500 日 
元 的 差距 ， 如 果 可 能 的 话 ， 应 尽量 确保 CPI 保持 在 2282 日 元 左右 。 我 
们 将 本 例 中 的 问题 细 化 如 下 。 



































在 传统 媒体 上 的 广告 投放 分 配 比例 存在 问题 

一 每 月 在 电视 和 杂志 上 投放 广告 的 比例 有 所 不 同 

通过 和 广告 部 确认 ， 我 们 了 解 到 ， 虽 然 我 们 无 法 指定 投放 广告 的 电 
视 或 杂志 媒体 数量 ， 但 我 们 可 以 告诉 广告 公司 分 别 投放 在 电视 和 杂志 
的 比率 ， 因 此 
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1. 基于 过 去 的 数据 ， 明 确 在 电视 和 杂志 上 投放 广告 的 广告 费 和 各 有 自 
所 获得 的 用 户 数 之 间 的 关系 
2. 基于 上 述 关 系 ， 确 定 以 何 种 比例 在 电视 和 杂志 上 投放 广告 


至 此 ， 我 们 细 化 了 问题 ， 并 确定 了 分 析 的 步 又。 那么 ， 如 何 对 电视 
和 杂志 的 广告 费 与 各 日 所 获得 的 用 户 数 之 间 的 关系 进行 建 模 呢 ? 


CPI 变 化 


2,365 2,386 2 346 








| © ,486 2 443 2 68 2 076 2451 


Geo 282 


2013-01 2013-02 2013-03 2013-04 2013-05 2013-06 2013-07 2013-08 2013-09 2013-10 
month 


2,000 - 


1,000 - 





多 元 回归 模型 的 分 析 方 法 


在 前 面 的 半 市 中 ， 我 们 介绍 了 “交叉 列表 统计 ” “统计 学 假设 检验 ” 
两 种 用 于 数据 间 关 联 性 分 析 的 方法 。 


大 降价 销量 大 





派发 的 传单 多 来 店 的 顾客 多 


来 店 的 顾客 多 销售 额 大 


如 上 表 所 述 ， 通 过 明确 各 目的 因果 关系 ， 可 以 判断 诸如 降价 和 销量 
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之 间 是 否 存在 关系 。 但 是 目前 的 分 析 仍 然 不 能 回答 一 些 更 具体 的 问题 ， 
例如 “价格 下 降 多 少 能 够 沉 来 多 大 的 销量 增加 ”。 在 商业 领域 , 通常 的 
做 法 是 在 充分 考虑 成 本 的 前 提 下 预 舍 一 个 结果 ， 再 采取 相应 的 对 宁 。 也 
就 是 说 ， 通 党 我 们 会 完 确定 结果 ， 再 反 过 来 考虑 相应 对 案 的 成 本 。 放 在 
本 次 宁 例 中 ， 我 们 需要 先 构筑 一 个 可 以 预 估 各 广告 媒体 能 带 来 的 用 户 量 
的 模型 ， 再 决定 三 告 的 投放 方式 。 

此 时 就 需要 用 到 “回归 分 析 /多 元 回归 分 析 ”。 回 归 分 析 的 思路 非常 
简单 ， 可 以 说 是 交叉 列表 统计 的 扩展 。 我 们 将 数据 描绘 在 图 上 ， 每 个 点 
表 不 一 个 数据 ， 其 中 模 坐 标 表 示 的 变量 称 为 目 变 量 ,， 纵 坐标 表示 的 变量 
称 为 因 变 量 。 然 后 我 们 在 图 上 夯 出 一 条 与 这 些 数 据点 最 为 拟 合 的 直线 ， 
根据 这 条 下 线 上 任何 一 点 的 模 坐 标 (日 变量 ) 的 值 就 可 以 得 到 纵 坐 标 
( 因 变 量 ) 的 值 ， 这 就 是 线性 回归 分 析 。 

例如 ， 通 过 交叉 列表 统计 ， 可 以 得 知 广告 费 花 得 越 多 ， 相 应 的 新 增 
用 户 就 会 越 多 。 接 下 来 我 们 束 需 要 考虑 能 否 对 这 种 关系 进行 建 模 。 具 体 
来 说 ， 束 是 当 我 们 知道 了 广告 费用 的 预算 之 后 ， 是 否 能 够 预 估 出 由 此 可 
能 带 来 的 新 用 户 数量 。 我 们 以 下 面 左边 的 图 为 例 来 说 明 ， 图 中 的 横 轴 表 
不 三 告 费 ， 纵 轴 表 示 新 用 户 数 。 



































新 本 了 新 


广告 费 广告 费 


如 图 所 示 ， 通 过 观察 图 中 的 所 有 数据 ， 可 以 发 现 广 告 费 和 新 用 户 数 
之 间 果 然 存 在 一 定 的 关系 。 于 是 我 们 对 此 进行 回归 分 析 ， 并 对 这 种 关系 
建 模 ， 如 右 图 所 示 。 

图 中 的 这 条 直线 台 是 最 简单 的 一 种 模型 ， 该 直线 可 以 用 下 面 的 公式 
来 表述 。 
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狐 用 户 数 =Bx 广告 费 +a 


回归 分 析 就 是 根据 现 有 的 数据 来 佑 计 x 和 的 值 。 
根据 从 回归 分 析 的 结果 得 出 的 公式 和 各 项 指标 ， 我 们 进行 如 下 
分 析 。 
e@ 原因 数据 真 的 会 对 结果 数据 产生 影响 吗 
> 广告 费 ( 自 变 量 ) 的 变化 真 的 会 对 新 用 户 数 〈 因 变量 ) 产生 
影 啊 吗 


@ 如 果 确 实 有 影响 ， 那 么 这 是 一 种 怎样 的 关系 呢 
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下 数据 的 收集 





探讨 和 收集 分 析 所 需 的 数据 


到 目前 为 止 ， 我 们 在 互联 网 、 电 视 和 茶 志 3 个 广告 媒体 上 开展 了 商 
业 推 广 活 动 。 使 用 过 去 实际 的 成 果 数 据 ， 我 们 就 能 够 对 各 个 广告 媒体 的 
效 采 进行 分 析 。 

在 这 3 个 广告 媒体 中 ， 由 于 互联 网 广告 的 效果 可 以 直接 测定 ， 因 此 
哪个 网 站 的 广告 有 什么 样 的 效果 ， 其 CPI 很 明确 。 然 而 ， 关 于 电视 和 于 
志 广 告 ， 我 们 只 能 获取 总 体 的 用 户 数 增加 了 这 类 粗略 的 信息 。 因 此 ,我 
们 排除 了 互联 网 广告 所 带 来 的 新 用 户 ， 将 剩余 的 新 用 户 数 和 花 宽 在 电视 
以 及 杂志 上 的 广告 费 作 为 分 析 用 的 数据 。 

经 和 市 场 部 确认 得 知 ， 这 些 数据 一 直 都 在 用 Excel 管理 ， 因 此 我 们 
只 需 将 必要 的 数据 存 和 人 CSV 文件 ， 再 将 其 谈 入 到 分 析 软 件 中 即 可 。 


> R-CODE 
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《 黑 猫 拼图 》 游 戏 在 电视 和 杂志 上 投入 的 广告 费 和 所 获得 的 新 用 户 数 
电视 广告 费 杂志 广告 费 新 用 户 数 
2013 年 1 月 53948 





2013 年 2 月 67300 


2013 年 3 月 6853 5862 52057 


2013 年 4 月 





2013: 守 5 月 





2013 年 6 月 
2013 年 7 月 





2013 年 昌 崩 





2013 年 9 月 











2013 年 10 月 
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最 加 数据 分 析 





首 完 ， 我 们 需要 确认 广告 和 新 用 户 数 之 间 是 否 存在 关系 。 如 朵 二 者 
之 间 的 关系 不 那么 强 ， 丈 不 能 断言 用 户 数 量 的 增加 是 由 广告 市 来 的 。 我 
们 将 数据 之 间 的 关系 的 强 弱 称 为 “相关 性 ”。 为 了 确认 这 种 相关 性 ， 一 
般 来 说 首先 需要 观察 数据 的 散 点 图 。 








电视 、 杂 志 的 广告 费 和 新 用 户 数 的 艇 扣 图 


R-CODE R-CODE 
人- 


鞍 鞍 
全 民 、 
旺 是 
电视 广告 费 | 杂志 广告 费 
电视 广告 费 和 新 用 户 数 杂志 广告 费 和 新 用 户 数 


无 论 是 电视 广告 还 是 傈 志 广 告 ， 从 散 操 图 来 看 ， 随 看 投入 的 广告 费 
用 的 增加 ， 新 获得 的 用 户 数 也 会 增加 ， 反 应 在 图 上 就 是 数 据点 不 断 地 癌 
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右上 方 延 伸 。 既 然 明确 了 广告 费 和 新 用 户 数 之 间 存 在 关系 ， 下 面 我 们 就 
来 看 于 进行 回归 分 析 。 


进行 多 元 回归 分 析 


@ 多 元 回归 模型 的 系数 








根据 上 表 的 输出 结果 ， 我 们 可 以 得 到 下 述 关 系 。 
新 用 户 数 =1.361 x 电视 广告 费 + 7.250 x 杂志 广告 费 + 188.174 


从 上 式 可 以 看 出 ， 如 末 不 投放 广告 ， 则 每 月 新 增 的 用 户 数 为 大 约 
188 人 。 如 果 在 电视 广告 上 投入 1 日 元 ， 就 能 够 获得 1 名 新 用 户 。 在 杂 





志 广 告 上 投入 1 日 元 ， 则 可 获得 7 名 新 用 户 。 也 了 驶 是 说 ， 通 过 杂志 广告 
来 获得 新 用 户 的 效率 要 远 远 高 于 电视 广告 。 





对 多 元 回归 模型 的 详细 探讨 
对 于 上 面 的 模型 公式 ， 我 们 再 做 进一步 探讨 。 


-3 
中 残 差 的 分 布 


最 小 值 第 1 四 分 位 数 中 值 第 3 四 分 位 数 最 大 值 








-1406.9 -984.5 432.8 1985.8 


残 差 (预测 值 和 实际 值 之 差 ) 的 分 布 用 四 分 位 数 的 方式 来 表示 ， 据 











此 可 以 判断 数据 是 否 存在 寞 第 仿 差 。 
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(2 多 元 回归 模型 的 系数 
预 估 值 标准 误差 
截 距 项 ( 常数 项 ) 188.174 7719.131 





视 广 告 费 1.361 0.517 





杂志 广告 费 1:250 1.693 











SIgOnmfeooes 口 ”0001 001 ”005 01 1 

上 表 总 结 了 预 估 得 到 的 稼 数 项 和 和 斜率 等 数据 。 每 一 行 的 数据 分 别 是 
预 佑 值 、 标 准 误差 、t 值 、p 值 ， 据 此 可 以 得 知 每 个 属性 相应 的 斜率 是 多 
少 ， 以 及 是 否 具 有 统计 学 意义 。 








(3) 判定 系数 和 自由 度 校正 判定 系数 

判定 系数 : 0.938， 自 由 度 校正 判定 系数 : 0.92 

判定 系数 越 接 近 于 1， 表 示 这 个 模型 拟 合 得 越 好 。 

观察 中 中 的 残 差 分 布 ， 我 们 发 现 ， 第 1 四 分 位 数 的 绝对 值 要 大 于 第 
3 四 分 位 数 的 绝对 值 ， 这 说 明 某 些 数据 点 的 分 布 存 在 偏差 ,但 由 于 @ 中 


目 由 度 校 正 判 定 系 数 的 值 较 高 ， 因 此 现在 的 广告 投放 策略 应 该 是 没有 问 
题 的 。 
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解决 对 策 





本 例 中 我 们 围绕 如 下 间 题 进行 了 分 析 。 


1. 通过 各 种 传统 媒体 广告 所 获得 的 新 用 户 数 不 尽 相同 ( 事实 ) 
2. 每 月 获得 的 新 用 户 数 与 在 电视 和 杂志 上 的 广告 投放 比例 相关 

( 假设 ) 
3. 把 握 电 视 广 告 费 和 杂志 广告 费 各 自 与 获得 的 新 用 户 数 之 间 的 关系 
4. 基于 这 种 关系 ， 确 定 一 个 最 佳 的 广告 分 配 比 例 


基于 上 述 问 题 设 定 ,我 们 使 用 多 元 回归 分 析 推 导出 了 传统 媒体 广告 
和 新 用 户 数 之 间 的 关系 ， 如 下 所 示 。 


新 用 户 数 = 1.361 x 电视 广告 费 +7.250 x 杂志 广告 费 + 188.174 


从 上 式 可 以 看 出 ， 相 比 于 电视 广告 ,杂志 广告 的 效 末 要 更 好 一 些 。 
即便 采取 只 投放 杂志 广告 而 不 投放 电视 广告 的 极端 行为 ， 效 果 也 不 会 太 
差 。 但 是 上 述 公式 毕 苋 只 是 基于 本 例 中 的 数据 计算 得 出 的 ， 对 于 超出 本 
例 数 据 范 围 的 值 则 不 适用 。 

另外 ， 如 前 所 述 ， 为 了 维持 和 广告 公司 的 合作 关系 ， 我 们 不 会 对 任 
何 一 家 广告 媒体 连续 3 个 月 不 投放 任何 广告 。 

因此 ， 这 回 我 们 将 按照 下 述 比例 来 分 配 广 告 费用 。 























电视 广告 : 4200 万 日 元 杂志 广告 : 7500 万 日 元 
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根据 上 面 的 计算 公式 ， 我 们 可 以 得 到 如 下 结 
60279 人 = 1.361 x (4200 万 日 元 )+7.250 x (7500 万 日 元 ) +188.174 


也 就 是 说 ， 我 们 预期 可 以 获得 大 约 6 万 的 新 用 户 。 
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本 章 介 绍 了 数据 分 析 中 的 多 元 回归 分 析 。 

对 于 那些 成 本 较 高 的 问题 ， 该 方法 可 用 于 最 优化 其 效益 成 本 比 。 尤 
其 在 商业 领域 ,大 家 一 般 痢 更 关注 成 本 较 高 的 事情 ， 哪 怕 只 提升 了 少许 
的 效果 ， 对 于 整体 来 说 也 可 能 起 到 很 大 的 作用 。 这 种 情况 下 最 适合 使 用 
多 元 回归 分 析 ， 该 方法 能 够 预测 出 每 种 策略 应 该 占 多 大 比重 。 

在 事前 能 预测 大 部 分 结果 ， 且 在 实施 阶段 需要 耗费 高 成 本 的 情况 
下 ， 多 元 回归 分 析 是 不 二 的 选择 。 

分 析 流 程 第 6 章 中 数据 分 析 的 成 本 


发 现 问题 











数据 的 收集 和 加 工 
数据 分 析 
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读 入 CSV 文件 





Vs 人 
ad.data <- read. 


R-CODE 


SE 
ad.data 
### month tvcm magazine install 
:; 振 1 2013-01 6358 5955 53948 | 
! #2 2013-02 8176 6069 57300 
; 林 3 2013-03 6853 5862 52057 
;#4 2013-04 5271 5247 44044 : 
: ## 5 2013-05 6473 6365 54063 
; #6 2013-06 7682 6555 58097 
; # 7 2013-07 5666 5546 47407 | 
; ## 8 2013-08 6659 6066 53333 | 
; ## 9 2013-09 6066 5646 49918 
; 村 10 2013-10 10090 6545 59963 


生成 电视 广告 帝 和 新 用 户 数 的 散 点 图 


※ 如 果 在 作 图 中 不 能 显示 汉字 ， 请 执行 library (sysfonts) 和 1library 
(showtext) 这 两 个 命令 来 导入 字体 包 。 
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R-CODE 


library (ggplot2) \96-02/ 


library (scales) 


# TVCM 

gaploE (0 036735 seven se geompounme lr 

xlab ("电视 广告 费 ") + ylab ("新 用 户 数 ") + 

sealey>xscontinueustlabel conn oecale vcone muous al eonma) 


60,000 - 


55,000 - 


新 用 户 数 


50,000 -~ 


45,000 - 


1 1 1 1 1 
6,000 7,000 8,000 9,000 10,000 


电视 广告 费 


生成 杂志 广告 壹 和 新 用 户 数 的 散 点 图 








# ”杂志 广告 
gaplot (lad gaa aeslr magazine ey nestall) geompomt or 
xlab ("杂志 广告 费 ") + ylab ("新 用 户 数 ") + scale x continuous (label = comma) 
scalc yeonbrieu (Lane com 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


122 | 第 6 章 如 何 通过 各 种 广告 的 组 合 获得 更 多 的 用 户 


新 用 户 数 


45,000 - 


进行 回归 分 析 





在 RR 语言 中 ， 进 行 回归 分 析 通 党 使 用 lm 函数 。 


R-CODE 
4 
# 进行 回归 分 析 
£1t = 1m(inestall = ., data = ad.datal, c(ingtall, vvyem!, 
"magazine")]) 
fn 


lIm(A~ ., data = ZZ[, c("A","B","C")]) 


首先 ， 通 过 data= 来 指明 进行 回归 分 析 所 逢 要 用 到 的 是 zz 数据 中 
的 属性 A、B 和 C， 并 在 这 之 前 指明 所 需要 用 到 的 回归 模型 。 

上 式 中 的 “A ~ .” 表 示 回 归 模 型 为 A=B+C。 其 中 “~” 相 当 于 数学 
中 的 等 号 ,“.” 是 一 个 省 略 记号 ， 表 示 在 data 中 声明 使 用 的 所 有 属性 里 
将 除 属 性 &A 之 外 的 其 他 所 有 属性 相 加 。 因 此 上 式 等 同 于 Im(RA~B+C， 
data=2Z2[，c("A","B","C")])。 义 因为 上 式 中 除 属性 和 A 外 只 有 2 个 属 
性 ， 所 以 不 用 省 略 直 接 列 出 其 他 所 有 属性 也 是 可 以 的 ,但 当 用 到 的 属性 
数量 多 达 几 十 个 时 ,使 用 省 上 略 记 号 “.” 还 是 很 方便 的 。 
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## Call: 

## lm (formula = install ~ ., data = ad.data |, c ("install", "tvem", 
## "magazine") ] ) 

## 

## Coefficients. 

## ( Intercept | tvem magazine 


1 188.17 ee pe | 多 元 回归 模型 式 的 
系数 预 估 值 


Ns el rine Ne te ee ee ed i ed de He diet i ed tl. i ee eee ee ee ed i ed i dil Set i Pe ie ed ed) tl, Pe eee feel ee ed! i ed joi, De i eit, Fd, eed dl” i Ne ee fee ee dN, ed i eed i 1 a ed eid el" i te, end ed ed i, a ed i Se ee te ee i dd ee ee 


通过 输入 £it 就 能 确定 多 元 回归 方程 的 系数 ， 从 而 构建 出 多 元 回归 
模型 。 例 如 从 上 面 的 结果 我 们 可 以 得 到 以 下 模型 。 


新 用 户 数 = 1.36 x 电视 广告 费 +7.25 x 杂志 广告 费 +188.17 

从 上 式 可 以 得 知 ， 哪 怕 不 投放 任何 广告 ， 每 月 也 能 新 增 大 约 188 名 
用 户 。 在 电视 广告 中 多 投入 1 日 元 可 多 获得 1 名 新 用 户 ， 而 在 杂志 广告 
中 多 投入 1 日 元 则 可 多 获得 7 名 新 用 户 。 也 就 是 说 ， 在 投放 《 黑 猫 拼 
图 》 游 戏 的 广告 时 ， 林 志 广 告 要 比 电 视 广 告 更 能 吸引 到 新 用 户 。 





对 回归 分 析 结 果 的 解释 


对 于 lm 函数 的 结果 ， 可 以 用 R 语言 中 的 summary 限 数 来 对 其 进行 
解释 。 下 面 我 们 来 详细 介绍 一 下 summary 因数 。 


R-CODE 
summary (fit) e905, 





## Call. 
## lm{(formula = install ~ ., data = ad.data [, c("install'", "tvem", 


## "magazine") ] ) 
## Residuals: 


## Min 1Q Median 30 Max | aaaon 
## -1406.9 -984.5 = 省 2 432.8 1985.8 
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## _ Coefficients， 


## Estimate Std. Error t value Pr(>|t|) ' 
## (Intercept) 188.174 7719.131 002 0;9812 (2 系数 的 预 估 
## tvem 1.361 0.517 名 ,63 内 .0939 值 的 概要 

## magazine 7.250 1.693 4.28 0.0036 ** 

## --- 

## Signif. codes: 0 '*x*! 0.001 '™**! 0.01 '*! 0.05 '.' 0.1' '1 

## 


## Residual standard error: 1390 on 7 degrees of freedom ' 
## IMultiple R-squared: 0.938, Adjusted R-squared: 0.92 @ 判定 系数 及 其 ; 
## F-statistic. 52.9 on 2 and 7 DF, p-value: 5.97e-05 自由 度 校正 值 


从 执行 结果 可 以 得 知 以 下 内 容 ， 我 们 来 一 个 一 个 地 详细 阐述 。 


(1) Residuals 
残 差 也 就 是 预测 值 和 实际 值 之 差 ， 我 们 将 残 差 的 分 布 用 四 分 位 数 的 
方式 表示 出 来 ， 就 可 以 据 此 来 判断 是 否 存 在 较 大 的 仿 差 。 








(2) Coefficients 

这 里 是 与 预 佑 的 常数 项 和 和 斜率 相关 的 内 容 。 每 行内 容 都 按照 预 估 
值 、 标 准 误差 、 t 值 、p 值 的 顺序 给 出 。 我 们 可 以 由 此 得 知 各 个 属性 的 和 斜 
率 是 多 少 ， 以 及 是 否 具有 统计 学 意义 。 














(3) Multiple R-squared、Adjusted R-squared 

判定 系数 越 接 近 于 1， 表 示 模 型 拟 合 得 越 好 。 

通过 观察 残 差 的 分 布 ， 我 们 发 现 1Q (第 1 四 分 位 数 ) 的 绝对 值 比 
3Q (第 3 四 分 位 数 ) 的 绝对 值 要 大 ， 这 表明 某 些 数据 的 分 布 偏差 过 大 。 
但 由 于 自由 度 校正 判定 系数 的 值 高 达 0.92， 因 此 之 前 所 决定 的 广告 策略 
应 该 没有 什么 问题 。 
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第 7 章 
案例 @ 一 逻辑 回归 分 析 


根据 过 去 的 行为 能 否 预测 
当下 


从 非 智能 手机 更 换 到 智能 手机 的 分 析 

我 们 怀疑 很 多 《垂钓 乐园 》 游 戏 的 用 户 从 非 智能 手机 更 换 到 知 
能 手机 后 ， 过 去 使 用 的 游戏 账号 可 能 不 能 继续 在 新 的 手机 上 
使 用 了 。 因 此 需要 根据 之 前 用 户 的 访问 情况 来 预 估 一 下 到 底 有 
多 少 用 户 因 为 这 个 原因 流失 了 ， 那 么 我 们 应 该 怎么 做 呢 ? 
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半期 望 增加 游戏 的 智能 
手机 用 户 量 





《垂钓 乐园 /游戏 用 户 量 减少 的 问题 


除了 人 《 黑 猎 拼图》 游戏， 公司 还 有 一 球 名 为 《垂钓 乐园 》 的 社交 游 
戏 。 这 个 游戏 开始 投入 市 场 的 时 候 智能 手机 还 没有 出 现 ， 因 此 当时 这 于 
游戏 是 针对 非 智 能 手机 定制 开发 的 。 然 而 ， 随 着 智能 手机 的 快速 普及 ， 
公司 也 随 之 在 这 款 游 戏 中 加 入 了 针对 智能 手机 的 功能 ， 以 及 用 户 账 号 的 
迁 转 功能 ， 以 便 用 户 在 智能 手机 上 继续 使 用 过 去 非 智能 手机 中 的 游戏 账 
号 。 这 些 功 能 上 线 后 ， 智 能 手机 的 游戏 用 户 量 稳步 上 升 ， 同 时 游戏 的 总 
用 户 量 也 不 断 增加 。 

然而 ， 最 近 《 垂 钓 乐园 》 的 用 户 量 却 在 不 断 减少 。 我 们 从 各 种 角度 
分 析 了 这 个 问题 ， 然 后 发 现 游戏 的 非 智 能 手机 用 户 大 量 减 少 了 (如 下 图 
所 示 )。 


























智能 手机 


《垂钓 乐园 》 不 同 设备 用 户 量 的 时 间 序 列 变化 
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非 入 能 手机 用 户 量 的 减少 主要 是 由 移动 终端 市 场 的 变化 所 致 
首先 ， 随 着 移动 终端 市 场 的 发 展 ， 非 智能 手机 的 用 户 量 在 逐渐 减 








少 ， 而 智能 手机 的 用 户 量 在 不 断 增加 。 从 这 样 的 趋势 来 看 ， 使 用 非 智 能 
手机 的 游戏 用 户 不 断 减少 是 大 势 所 趋 。 其 他 游戏 的 非 智能 手机 用 户 的 情 
况 也 是 如 此 。 但 是 ， 在 其 他 游戏 中 ， 虽然 非 智 能 手机 的 用 户 量 在 减 小 ， 
但 智能 手机 的 用 户 量 在 增加 ， 因 而 总 用 户 量 大 致 没有 变化 。 也 就 是 说 ， 
和 其 他 游戏 相 比 ,《 垂 钓 乐 园 》 游 戏 的 非 智 能 手机 用 户 量 也 减少 了 ,但 
是 智能 手机 用 户 量 的 增加 幅度 却 比较 小 。 














用 智能 手机 用 己 量 的 增加 来 弥补 非 智 能 手机 用 己 量 的 减少 
下 面 我 们 来 整理 一 下 这 个 案例 的 现状 和 预期 。 目 前 的 现状 是 : 





镶 能 手机 用 户 的 增加 量 比 非 知 能 手机 用 户 的 减少 量 要 少 。 








根据 这 个 现状 ， 我 们 所 乔 望 达到 的 预期 是 : 








镶 能 手机 用 户 量 的 增加 要 能 够 弥补 非 智 能 手机 用 户 量 的 减少 。 


预期 







非 智能 手机 用 户 
减少 量 = 智能 


手机 用 户 增 加 量 






现状 
见 状 六 


非 智能 手机 
用 户 减 少量 > 
智能 手机 
用 户 增加 量 













第 7 章 的 现状 和 预期 
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十 用 户 账 号 迁 转 设 定 
失败 导致 的 问题 吗 








思考 非 智能 手机 用 户 流失 的 结构 

为 什么 游戏 的 智能 手机 用 户 量 的 增加 会 比 非 智能 手机 用 户 量 的 减少 
要 小 呢 ? 这 需要 我 们 仔细 思考 非 智能 手机 用 户 流失 的 结构 。 我 们 认为 这 
些 流失 的 用 户 大 致 可 分 为 下 面 两 部 分 。 











e@ 一 直 使 用 非 智能 手机 的 用 户 流失 
e@ 从 非 智 能 手机 更 换 为 智能 手机 时 的 用 户 流 失 





“一直 使 用 非 智能 手机 的 用 户 流失 ” 指 的 是 这 些 用 户 的 流失 并 不 是 
因为 更 换 了 智能 手机 ， 而 是 目 然 的 流失 。 而 因 更 换 乔 能 手机 造成 的 用 户 
流失 不 外 乎 下 面 儿 种 情况 。 











e@ 从 非 智 能 手机 更 换 为 智能 手机 时 的 用 户 流 失 
> 游戏 账号 迁 转 后 继续 在 智能 手机 上 使 用 
> 在 智能 手机 上 新 申请 一 个 游戏 账号 
> 干脆 束 不 再 玩 了 


将 游戏 账号 从 非 智 能 手机 迁 转 到 智能 手机 的 用 户 ， 我 们 将 其 算 作 是 
智能 手机 用 户 。 但 是 ， 有 些 用 户 在 更 换 智能 手机 后 就 重新 申请 了 一 个 游 
戏 账号 。 由 于 这 些 新 申请 账号 的 用 户 在 数据 上 显示 为 新 用 户 ， 因 此 很 难 
判断 这 样 的 用 户 是 不 是 更 换 了 手机 。 但 从 定期 的 问卷 调查 来 看 ， 只 有 极 
少数 用 户 会 在 更 换 智能 手机 后 重新 申请 一 个 游戏 账号 。 最 后 一 种 情况 是 
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用 户 在 更 换 了 智能 手机 后 就 不 再 玩 《 垂 钓 乐 园 》 游 戏 了 ， 这 类 用 户 和 那 
些 仍 在 使 用 非 智 能 手机 且 目 然 流失 的 用 户 很 难 区 分 开 。 
将 上 述 内 容 整理 后 如 下 表 所 示 。 
游戏 的 流失 用 户 是 否 持 有 智能 手机 ? 非 智 能 手机 用 户 流失 的 原因 
自然 流失 
自然 流 
在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 














池 戏 账号 迁 转 设 定 失败 导致 用 户 流 失 的 假设 

基于 上 表 的 内 容 ， 经 过 和 《垂钓 乐园 》 游 戏 的 策划 和 开发 负责 人 开 
会 商讨 ， 我 们 怀疑 在 那些 因 更 换 智能 手机 而 流失 的 用 户 当中 ， 有 的 可 能 
是 因为 旧 的 游戏 账号 在 智能 手机 上 迁 转 设 定 失 败 。 游 戏 账号 迁 转 设 定 模 
块 当时 开发 得 比较 仓促 ， 对 用 户 来 说 有 些 使 用 不 便 。 但 是 当时 这 个 模块 
在 发 布 后 并 没有 出 现 什么 问题 ， 这 可 能 是 因为 当时 使 用 智能 手机 的 用 户 
大 都 属于 时 尚 人 士 ， 就 算 游戏 账号 的 迁 转 设 定 有 点 复杂 ， 他 们 也 能 顺利 
完成 。 我 们 将 上 面 的 内 容 添加 到 表 里 ， 如 下 所 示 。 
用 户 流失 时 是 否 持 有 智能 手机 ? 非 智 能 手机 用 户 流失 的 原因 














在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失败 


如 果 我 们 所 面临 的 本 质问 题 是 上 表 中 最 后 的 “游戏 账号 迁 转 设 定 失 














败 ” 的 话 ， 就 必须 尽快 修复 这 个 问题 。 然 而 ， 由 于 这 个 模块 当时 开发 得 
比较 仓促 ， 因 此 现在 修复 起 来 预计 需要 耗费 相当 多 的 工时 。 而 现在 开发 
部 门 也 有 很 多 开发 任务 ， 很 难 抽出 时 间 。 
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因此 ， 现 在 做 问卷 调查 可 能 不 太 合适 ， 我 们 需要 的 是 一 个 大 致 的 结 
论 ， 并 尽快 预 佑 游戏 账号 迁 转 设 定 失败 造成 的 影响 ， 进 而 采取 下 述 东 个 
解决 对 策 。 


@ 如 果 游 戏 账 号 迁 转 设 定 失败 造成 了 很 大 的 影响 ， 那 就 需要 开发 部 
I 


e@ 如 果 这 个 问题 的 影响 较 小 ， 就 只 需要 改进 一 下 针对 智能 手机 用 户 
的 商业 宣传 
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yp 外 台 在 数 据 不 包含 正解 的 
情况 下 收集 数据 





用 户 自 然 流失 和 账号 迁 转 设 定 失败 导致 的 用 户 流 失 有 何不 同 
下 面 我 们 来 整理 一 下 目前 为 止 的 事实 和 假设 。 现 在 我 们 所 知道 的 事 
实 有 以 下 两 点 。 





e@ 非 智 能 手机 用 户 量 的 减少 比 智能 手机 用 户 量 的 增加 要 大 

e@ 当 用 户 从 非 智 能 手机 更 换 到 智能 手机 后 ， 重 新 注册 游戏 账号 的 用 
户 数 很 少 ( 从 问卷 调查 中 得 出 的 结论 ) 

我 们 得 出 的 假设 如 下 。 


e@ 从 非 智 能 手机 更 换 到 智能 手机 时 ， 游 戏 账 号 的 迁 转 设 定 失败 导致 
了 用 亡 流 失 





为 了 验证 上 述 假 设 ,我 们 需要 能 够 在 数据 上 区 分 用 户 的 上 自然 流失 和 
游戏 账号 迁 转 设 定 失 败 而 导致 的 用 户 流失 。 那 么 什么 样 的 数据 才能 满足 
我 们 的 分 析 需 要 呢 ? 例如 ， 我 们 来 看 一 下 用 户 在 流失 之 前 的 访问 数据 。 
如 下 表 所 示 ， 目 然 流 失 的 用 户 的 访问 天 数 是 在 逐渐 减少 的 ， 而 因 游 戏 账 











写 迁 转 设 定 失 败 而 流失 的 用 户 是 在 茶 天 后 就 突然 不 再 访问 了 。 





目 然 流 失 的 用 户 
游戏 账号 迁 转 设 定 失 败 而 流失 的 用 户 
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这 个 假设 虽然 不 是 来 自 于 问卷 调查 或 访谈 ， 但 也 符合 我 们 自身 使 用 
的 感觉 和 游戏 模块 开发 者 的 亲 里 体会 ， 因 此 具有 较 高 的 可 信和 度 。 

我 们 使 用 了 2013 年 1 月 和 2 月 的 DAU 数据 ， 如 下 表 所 示 。 具 体 来 
说 ， 就 是 使 用 1 月 份 用 户 的 访问 数据 来 预测 用 户 在 2 月份 是 自然 流失 
的 ， 还 是 因 游 戏 账号 迁 转 设 定 失 败 而 流失 的 。 


Ey R-CODE 
@ DAU \97-01/ 


访问 时 间 游戏 名 用 户 账 号 














2013 时 和 月 | 201 人 在 下 同 革 《垂钓 乐园 》| 10061580 | 非 智能 手机 
2013 年 1 月 1 2018 征 1 月 《垂钓 乐园 》| 10154440 | 非 智能 手机 
2015 相 咎 月 2013 在 本 周 《垂钓 乐园 》| 10164762 











2013 年 1 月 1:2013 年 1 月 《垂钓 乐园 》|j 10165615 
2013 年 1 月 '| 2013 年 :1 月 了 《垂钓 乐园 》| 10321356 
2013 年 1 月 | 2013 年 1 月 1 《垂钓 乐园 》| 10406653 




















不 存在 包含 正解 的 数据 


为 了 判断 用 户 是 上 月 然 流失 的 还 是 因 孵 戏 账 喜 迁 转变 定 失 败 而 流失 
的 ， 我 们 将 用 户 1 月份 的 访问 情况 设置 为 目 变 量 ， 这 从 我 们 目 身 的 角 
度 和 游戏 开发 人 员 的 角度 来 看 都 是 没有 问题 的 。 然 后 ， 将 “日 然 流 失 ” 
和 “ 因 账 号 迁 转 设 定 失 败 而 流失 ”作为 因 有 变量 ， 并 基于 之 前 的 表格 来 
思考 。 

用 户 流失 时 是 否 持 有 智能 手机 ? 非 智能 手机 用 户 流失 的 原因 
自然 流失 
自然 流失 

在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失败 
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用 户 流失 之 前 的 访问 情况 大 致 可 概括 为 以 下 几 个 特征 。 


e@ 访问 次 数 较 少 
> 未 使 用 智能 手机 的 用 户 自然 流失 
> 使 用 智能 手机 的 用 户 自然 流失 
e@ 访问 次 数 较 多 
> 在 智能 手机 上 使 用 了 新 的 游戏 账号 
> 在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
> 在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失 败 





如 上 所 示 ， 如 果 访 问 情况 存在 显著 的 差 寞 ， 那 么 我 们 就 能 够 构筑 判 
别 模型 。 但 是 ， 我 们 是 否 能 够 顺利 地 获得 上 面 这 些 访问 数据 呢 ? 下 表 中 
整理 出 了 相关 的 情况 。 











习 : 闪 牛 中 | 旦 未 
人 非 智 能 手机 用 户 流失 的 原因 数据 是 否 存在 ? 


自然 流失 ( 疫 有 分 析 价 值 ) 
自然 流失 ( 疫 有 分 析 价 值 ) 
在 智能 手机 上 使 用 了 新 的 游戏 账号 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 成 功 
在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 失败 














※ 灰色 行 表 示 不 能 从 该 数据 中 识别 出 非 智 能 手机 用 户 。 

由 上 表 可 知 ， 所 有 非 乔 能 手机 的 流失 用 户 当 中 ， 之 后 的 访问 情况 能 
够 被 识别 出 来 的 只 有 第 4 行 的 “在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 定 
成 功 ” 这 一 种 。 第 3 行 的 “在 智能 手机 上 使 用 了 新 的 游戏 账号 ”的 用 户 
数量 很 少 ， 而 我 们 最 想 知 道 的 “在 智能 手机 上 将 旧 的 游戏 账号 迁 转 设 害 
失败 ”这 种 情况 的 相关 数据 实际 上 却 无 法 获得 。 也 就 是 说 ， 用 户 “ 自 然 
流失 ”和 “ 因 游 戏 账号 迁 转 设 定 失败 而 流失 ”这 两 种 情况 在 数据 上 无 法 
区 分 ， 我 们 无 法 获得 所 需 的 包含 正解 的 数据 。 
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在 无 法 获得 包含 正解 的 数据 的 情况 下 进行 建 模 
基于 不 包含 正解 的 数据 进行 建 模 ， 这 在 学 术 界 属于 一 个 被 NG 的 问 














题 。 然 而 在 商业 领域 里 ， 建 模 所 需 的 数据 不 一 定 要 局 限于 包含 正解 的 完 
美 数据 。 像 本 案例 这 样 ， 在 无 法 获得 包含 正解 的 数据 的 情况 下 还 必须 得 
出 茶 些 结论 的 情况 并 不 少见 。 

那么 ， 本 案例 这 种 情况 我 们 要 怎么 考虑 呢 ? 首先 ， 我 们 来 看 一 下 
“ 因 游 戏 账号 迁 转 设 定 失败 而 流失 ”这 一 假设 很 民 重 的 和 情况。 参考 之 前 
的 表格 ,我们 可 以 预知 ， 和 上 自然 流失 的 用 户 相 比 ， 因 游戏 账号 迁 转 设 定 
失败 而 流失 的 用 户 在 当月 的 访问 次 数 要 高 得 多 。 因 此 ， 如 采 “ 因 游戏 账 
写 迁 转 设 定 失败 而 流失 ”的 用 户 在 所 有 流失 用 户 中 所 占 比 例 较 高 的 话 ， 
那么 流失 用 户 和 游戏 账号 迁 转 用 户 在 1 月 份 的 访问 情况 就 不 会 存在 什么 
差异 。 而 如 采访 问 情况 没什么 差异 的 话 ， 那 么 我 们 也 就 无 法 基于 访问 数 
量 构 贷 判 别 模型 。 反 之 ， 如 末 因 游戏 账号 迁 转 设 定 失 败 而 流失 的 用 户 较 
少 的 话 ， 那 么 访问 次 数 的 差异 束 会 比较 显 者 ， 也 束 能 够 顺利 地 构筑 判别 
模型 。 在 本 例 中 ， 如 来 能 构 贷 判别 模型 ， 丈 意味 者 令 人 划 悍 的 游戏 账号 
迁 转 设 定 的 复杂 性 并 未 产生 影响 。 


























当 游戏 账号 迁 转 设 定 失败 的 用 户 当 游戏 账号 迁 转 设 定 失败 的 用 户 
较 多 时 ， 反 映 在 数据 上 就 是 访问 较 少 时 ， 访 问 量 较 大 的 用 户 流失 
量 大 的 用 户 流失 较 多 ， 因 此 不 能 较 少 ， 因 此 可 以 得 到 判别 模型 
得 到 判别 模型 
食 别 | @ 要 @ 
@ 全 S 乱 

A . Ne 
A “© 账号 迁 转 © 

仿 “”” 设 定 失败 A 





访问 量 访问 量 


全 游戏 账号 迁 转 的 用 户 
全 流失 的 用 户 
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分 析 过 程 整 理 





我 们 再 来 整理 一 下 分 析 的 整个 过 程 。 


e@ 事实 
> 非 智能 手机 用 户 量 的 减少 比 智 能 手机 用 户 量 的 增加 要 大 
> 当 用 户 从 非 稍 能 手机 更 换 到 智能 手机 后 ， 重 新 注册 诉 戏 账 扎 的 
用 户 数 很 少 〈 从 问卷 调查 中 得 出 的 结论 ) 
e@ 假设 
> 从 非 智 能 手机 更 换 到 智能 手机 时 ， 游 戏 账 号 的 迁 转 设 定 失 败 导 
致 了 用 户 流失 
e@ 根据 分 析 方 法 和 结果 得 出 的 解决 对 策 
> 使 用 用 户 访 问 情况 数据 建立 “账号 迁 转 用 户 ” 和 “流失 用 户 ” 
的 判别 模型 
令 能 够 建立 有 效 的 模型 : 因 游 戏 账号 迁 转 设 定 失 败 而 导致 的 用 
户 流 失 的 影响 较 小 
=> 改进 面向 智能 手机 新 用 户 的 商业 宣传 
令 不 能 建立 有 效 的 模型 : 很 可 能 是 因 游 戏 账号 迁 转 设 定 失败 而 
导致 的 用 户 流 失 的 影响 较 大 
> 人 简化 游戏 账号 的 迁 转 设 害 
































使 用 哪 种 模型 





在 本 例 中 ， 我 们 需要 建立 “账号 迁 转 用 户 ” 和 “流失 用 户 ” 的 判别 
模型 。 这 类 模型 的 数量 有 很 多 ,但 在 本 例 中 ， 由 于 没有 包含 正解 的 数 
据 ， 因 此 我 们 就 没有 必要 使 用 诸如 SVM (支持 向 量 机 ) 或 者 神经 网 络 这 
类 精度 虽 高 但 计算 量 很 大 的 模型 ， 不 如 使 用 简单 的 方法 尽快 得 出 结 
于 是 本 例 中 我 们 决定 使 用 逻辑 回归 分 析 。 人 逻辑 回归 分 析 特 别 适合 因 变 量 
是 “ 买 /不 严 ” 这 种 二 值 的 情况 ， 是 用 来 简单 把 握 数 据 大 致 倾 问 的 最 合 
适 的 方法 。 








图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


136 | 第 7 章 根据 过 去 的 行为 能 否 预测 当下 





用 曲线 来 拟 合 “账号 迁 转 ” 的 比例 


为 了 方便 介绍 人 逻辑 回归 分 析 ， 我 们 将 “账号 迁 转 ” 表 示 为 1， 将 
用户 流失 ”表示 为 0。 设 横 轴 表示 “访问 次 数 ”， 样 本 点 分 布 在 纵 轴 的 





0 和 1 两 个 值 上 ， 如 下 面 左 图 所 示 。 图 中 在 0 和 1 两 个 值 上 分 布 有 很 多 
点 ， 此 时 要 想 得 知 数据 的 倾 回 性 比较 困难 。 我 们 尝试 使 用 第 6 章 中 介绍 
过 的 线性 回归 分 析 ， 得 到 如 下 面 右 图 所 示 的 结果 。 虽 然 得 到 了 一 条 直 
线 ， 但 它 依然 没有 反映 出 数据 的 特征 。 


1.00- = 一 一 一 一 一 一 一 一 一 一 1.00- ”mm 一 一 一 一 一 


OO OO i 
站 075 六 0.75- jE 
企 企 
全 人 
旺 是 0.50 
~ 0.50 ss 
汪 0.25- 
榨 0.25 控 
出 出 
ae GE -eu ee 
oh oh 000 g 
= oo eam ee 淮 


访问 量 访问 量 
线性 回归 分 析 原 本 就 不 适用 于 0/1 这 类 二 值 数据 。 这 是 因为 线性 回 
归 分 析 的 预测 值 有 可 能 小 于 0， 也 有 可 能 大 于 1。 针 对 0/1 这 样 的 数据 ， 
其 数值 本 身 并 不 重要 ， 关 注 值 为 1 的 数据 所 占 总 体 的 比例 更 为 合适 。 下 
面 就 让 我 们 来 统计 一 下 上 述 数 据 中 0 值 和 1 值 各 自 出 现 的 次 数 ， 结 果 如 
下 图 所 示 。 








400- l 
300- 
e a 
用 户 流 失 (0) 
200 - 
100 -= | | 
| 账号 迁 转 (1) 
| 国 加 图 
_0.25 0.00 0.: 0.75 1.00 
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从 上 图 可 以 看 出 ,访问 量 较 小 时 值 为 1 的 数据 基本 不 存在 。 随 着 访 
问 量 的 增加 ， 值 为 1 的 数据 开始 逐渐 增多 ， 最 终 全 部 是 值 为 1 的 数据 ， 
而 值 为 0 的 数据 消失 了 。 这 种 比例 变化 的 天 系 如 下 图 所 示 。 





账号 迁 转 的 概率 


' ' ' ' ' 
-0.25 0.00 0:25 0.50 0.75 


访问 量 





针对 这 种 比例 的 数据 ， 我 们 试 着 用 一 种 名 为 逻辑 斯 带 曲 线 的 曲线 来 
进行 拟 合 ， 这 就 是 逻辑 回归 分 析 。 逻 辑 斯 蒂 曲线 是 一 种 $ 型 的 曲线 ， 当 
横 坐 标 从 负 无 穷 增 加 到 某 个 值 时 ， 纵 坐标 的 值 一 下 非常 接近 0。 而 当 横 
坐标 大 于 该 值 之 后 ， 纵 坐标 的 值 开始 急速 向 1 通 近 。 在 这 之 后 又 开始 组 
慢 地 接近 于 1。 针 对 本 例 中 的 数据 ， 逻 辑 斯 蒂 曲 线 拟 合 后 的 结果 如 下 图 
所 示 。 











(11) 用 成 流 夫 10) 


转 


当 。 
5 10 访问 量 20 25 
根据 上 图 可 知 ， 和 线性 回归 不 同 ， 逻辑 回归 的 值 域 在 0 到 1 之 间 ， 
不 会 超出 这 个 范围 。 如 下 图 所 示 ， 在 这 条 曲线 上 ， 如 采 我 们 选取 “账号 


迁 转 ”所 所 比例 为 0.5 时 的 访问 量 来 作为 阅 值 ， 那 么 比 该 访问 量 大 的 即 
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可 判断 为 “账号 迁 转 ”， 而 比 该 访问 量 小 的 则 为 “用 户 流 失 ”。 在 本 例 
中 ， 我 们 将 用 户 1 月 份 的 访问 量 作为 日 变量 , 将 “账号 迁 转 ” 和 “用 户 
流失 ”作为 因 变 量 ， 通 过 人 逃 辑 回归 分 析 来 验证 假设 。 








堪 0.25- 





访问 量 


数据 加 工 





我 们 需要 准备 逻辑 回归 分 析 所 知 的 数据 ， 如 下 所 示 。 


(中) 关于 用 户 是 否 迁 转 到 了 其 他 账号 的 数据 
(关于 用 户 是 否 每 天 访问 游戏 的 数据 ( 如 下 表 所 示 ) 











基于 上 表 的 数据 ， 我 们 将 其 加 工 成 适用 于 逻辑 回归 分 析 的 数据 
jw 


db 关于 用 户 是 否 迁 转 到 了 其 他 账号 的 数据 的 整理 
首先 ， 我 们 来 生成 关于 1 月 份 的 非 智 能 手机 用 户 在 2 月 份 是 否 依 然 
访问 游戏 的 数据 。 
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®e 
> 


























| 1 月 1 月 
非 智能 手机 | “| 非 智能 手机 用 户 D | 日 期 | 设备 | 2 月 访问 
DAU DAU MAU 
100 1/1 非 智 能 有 
手机 
2 月 2 月 
DAU MAU 














e 从 1 月 份 的 DAU 数据 中 提取 出 非 智能 手机 的 DAU 数据 ， 然 后 将 
该 月 的 数据 合并 得 到 当月 的 MAU 数据 

@ 从 2 月 份 的 DAU 数据 中 得 到 当月 的 MAU 数据 

e@ 综合 上 述 两 部 分 数据 ， 生 成 天 于 1 月 份 的 非 智 能 手机 用 户 在 2 月 
份 是 否 进行 了 访问 的 标志 位 


上 述 步 又 生成 的 数据 如 下 表 所 示 。 


@ 1 月 份 的 非 智能 手机 用 户 在 2 月 份 是 流失 了 还 是 变 成 使 用 智能 手机 来 访 
问 了 
(a ) 1 月 份 的 非 智能 手机 用 户 在 2 月 份 的 访问 情况 ( fp.maul1 ) 


用 户 ID 
397286 


月 份 
2013 年 1 月 


设备 
非 智能 手机 





471341 


503874 


2013 年 1 月 
2013 年 1 月 


非 智能 手机 





512250 


2013 年 1 月 





S13811 


2013 年 1 月 




















下 一 步 我 们 需要 区 分 2 月 份 的 用 户 访问 是 继续 来 目 非 智能 手机 还 是 
来 日 智能 手机 。 
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R-CODE R-CODE 
人 







































设备 2 月 访问 
2 月 2 月 
韭 智能 手机 非 智能 智能 手机 | 
机 的 MAU 的 MAU 
1/1 非 智 能 手机 
| 
吾 2 月 非 智 能 | 2 月 智能 
甘 几 儿 口 了 Ns 
用 户 账 号 | 日 期 -9 手机 访问 | 手机 访问 
100 1/1 非 智能 手机 No Yes 
101 1/1 非 智 能 手机 无 No No 




















e@ 和 上 一 步 的 处 理 方法 一 样 ， 我 们 先 从 2 月 份 的 DAU 数据 生成 当 
月 非 智 能 手机 用 户 的 MAU 数据 和 智能 手机 用 户 的 MAU 数据 

e@ 将 刚才 生成 的 数据 和 2 月 份 非 智能 手机 的 MAU 数据 、 智 能 手机 
的 MAU 数据 相 结 合 ， 生 成 区 别 2 月 份 的 访问 是 来 自 非 智能 手机 
还 是 智能 手机 的 标志 位 


下 表 就 是 经 过 上 述 处 理 后 得 到 的 绪 
(bj) 在 (al) 的 数据 后 添加 2 月 份 所 使 用 的 设备 信息 (fp.maut1 ) 
2 月 2 月 非 智能 2 月 智能 


No. ”用户 ID 


397286 


471341 


月 份 


2013 年 月 
2013 年 1 月 


设备 
非 智能 手机 
非 智能 手机 


访问 


手机 访问 


Yes 


机 访问 
No 





503874 


2013 年 1 月 





512250 


2013 年 1 月 





513811 








2013 年 1 月 











此 时 ， 我 们 需要 建立 一 个 判别 模型 ， 用 来 判断 那些 非 智能 手机 用 户 
下 个 月 是 会 通过 智能 手机 继续 访问 还 是 会 流失 。 在 这 个 过 程 中 ， 下 个 月 
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继续 使 用 非 智 能 手机 访问 的 用 户 数 据 对 于 模型 的 建立 没有 什么 作用 ， 我 
们 可 以 先 排除 掉 。 


R-CODE 
全 
要 7 月 非 知 | 2 月 管 能 \97-06) 
入 备 。 | 2 月 访问 | 能 手机 访问 


0 问 





限定 为 “2 月 份 没有 访问 ”或 者 “2 月 份 从 智能 手机 访问 ”的 数据 


| 2 月 非 智 | 2 月 智能 
2 口 
二 态 站 | 能 手机 访问 | 手机 访问 


非 智 能 手机 


re 


@ 以 “2 月 份 没有 访问 ”或 者 “2 月 份 从 智能 手机 访问 ”为 条 件 对 
数据 进行 过 滤 














处 理 后 的 数据 如 下 表 所 示 。 
(c) 以 灰色 部 分 为 条 件 过 滤 ( b ) 的 数据 ( fp.maut1 ) 


月 份 a 2 月 2 月 非 智 能 2 月 智能 
访问 手机 访问 ”手机 访问 


471341 | 2013 年 1 月 | 非 智能 手机 
503874 | 2013 年 1 月 | 非 智 能 手机 
1073544 | 2013 年 1 月 








1073864 | 2013 年 1 月 





1163733 | 2013 年 1 月 























这 样 驶 得 到 了 逻辑 回归 分 析 所 需 的 数据 。 
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GD) 关于 每 天 是 否 访问 游戏 的 数据 的 加 工 -他 











其 次 ， 我们 需要 对 每 个 用 户 每 天 访问 情况 的 数据 进行 加 工 处 理 。 现 
在 已 有 的 DAU 数据 如 下 图 左边 所 示 ， 是 以 日 期 、 用 户 ID 为 属性 的 数 
据 。 我 们 要 将 这 份 数据 加 工 成 如 下 图 右边 所 示 ， 以 日 期 为 属性 。 





日 期 | 用 户 ID 






































(d) 1 月份 非 智 能 手机 用 户 每 天 的 访问 情况 ( fp.dau1.cast) 


[Ne 用 户 ID 1/1 1/2 1/3 1/4 1/5 1/6 1/7 1/8 “ 
有 无 无 


有 
471341 有 
503874 | 有 
有 
无 
有 








b12250 
bl3811 





条 有 
有 无 
无 无 
有 有 
契 无 
有 有 


638688 


























最 后 ， 将 上 面 的 数据 和 中 中 生成 的 用 户 访问 情况 数据 合并 。 





R-CODE 
( e ) 将 每 天 的 访问 情况 数据 (d ) 和 ( c ) 合并 
No. ”用户 ID Wt 12 13 14 15 … 1/31 2 月 智能 手机 访问 
有 


ZE 
i 
ZE 


vw 
4 1073864 | 无 | 无 | 无 
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( 续 ) 


No “用户 ID 4 124 1/3 1/4 11/5 /31 2 月 智能 手机 访问 


5 | 1163733 有 | 有 | 无 | 无 无 | … | 有 Yes 


加 类 二 昌 昌 


经 过 上 述 处 理 ， 就 能 够 得 到 分 析 所 需要 的 数据 。 下 面 我 们 来 确认 一 
下 流失 的 用 户 ( 包含 因 账 号 迁 转 设 定 失败 而 流失 的 用 户 ) 和 账号 迁 转 的 
用 户 分别 有 多 少 人 。 最 后 我 们 统计 的 结果 是 有 190 名 用 户 流 失 了 ， 而 账 
号 迁 转 的 用 户 有 62 名 ， 如 下 表 所 示 。 


-CODE 
@ fp.maul \07-09/ 


用 户 流 失 账号 迁 转 


※ 由 于 本 书 中 使 用 的 是 样本 数据 ， 因 此 各 项 的 数据 量 较 少 。 
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验证 是 人 否 能 够 建立 模型 








建立 模型 和 验证 模型 


在 本 例 中 ， 我们 基于 1 月份 31 天 的 访问 数据 来 创建 一 个 计算 2 月 
份 账号 迁 转 概 率 的 模型 。 建 立 这 种 预测 模型 的 情况 下 ， 分 析 大 体 上 分 为 
两 个 部 分 : 建立 模型 和 验证 模型 。 首 先 ， 我 们 使 用 现 有 的 数据 来 进行 逻 
辑 回 归 分 析 并 建立 预测 模型 。 为 了 验证 所 得 到 的 预测 模型 的 可 信和 度 ， 我 
们 要 将 模型 的 预测 值 和 实际 数据 进行 对 比 。 本 例 中 模型 所 要 预测 的 是 
“下 月 账号 迁 转 的 概率 ”， 预 测 值 大 于 0.5 时 表示 下 月 用 户 账号 发 生 迁 转 ， 
而 小 于 0.5 时 则 表示 用 户 流失 。 









































100- ew = 一 一 一 一 一 一 一 一 一 一 一 一 -一 一 一 一 . 


075- 
o50- 
025- 
国 I 000- 2 
1 ， ， ， ， ， 
ooo 025 050 075 100 5 19 1 
先 形 和 


验证 模型 
































2 月 访问 情况 用户 流失 ( 预测 值 ) 账号 迁 转 ( 预测 值 ) 
用 户 流失 ( 实际 值 ) 
































账号 迁 转 ( 实际 值 】 
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使 用 逻辑 回归 分 析 来 建立 模型 


下 面 我 们 将 通过 逻辑 回归 分 析 来 建立 模型 。 在 本 例 中 ， 自 Ce 
过 去 1 个 月 (31 天) 的 访问 情况 ， 但 是 这 样 变 量 的 个 数 有 些 过 多 。 为 
pe ee er 虽 某 种 标准 对 变量 进行 选择 。; ws 
的 方法 有 很 多 种 ， 一 般 经 常 使 用 的 是 一 种 名 为 AIC ( 赤 池 信息 量 准则 ) 
的 指标 。 基 于 这 个 指标 来 选择 变量 并 生成 模型 ， 如 下 所 示 。 这 里 我 们 选 


择 了 变量 Xlday(1/1)、X4day(1/4)、X5day(1/5)…… 全 
Yo70) 
@ 残 差 的 分 布 











最 小 值 第 1 四 分 位 点 第 3 四 分 位 点 最 大 值 


—1.9554 -0.4518 -0.2318 -0.0612 2.6946 


@ 回归 模型 的 系数 
系数 的 预 估 值 标准 误差 z 值 





常数 项 
X1day1 
X4day1 











Xpday1 





X7day1 





X10day1 


X22day1 2.54 0.0110 
X29day1 . 3.09 0.0020 
X31day1 . 2.13 0.0335 














@ 赤 池 信息 量 准 则 


AIC= 146.7 
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从 分 析 结 果 来 探讨 模型 


通过 观察 逻辑 回归 分 析 的 执行 结果 ， 我 们 发 现 X5day 和 Xl0day 的 
系数 为 负数 。 如 果 下 观 地 解释 ， 那 就 是 “如 果 5 日 和 10 日 没 来 访问 的 
话 ， 那 么 下 月 (2 月 ) 账号 就 会 发 生 迁 转 ”， 意 思 有 些 英 名 其 妙 。 出 现 这 
种 情况 是 由 于 目 变 量 之 间 存 在 着 相关 性 ， 我 们 把 这 种 现象 称 为 多 重 共 线 
性 。 当 出 现 多 重 共 线性 时 ， 上 述 关 于 系数 的 讨论 就 没什么 意义 了 。 而 且 
这 种 情况 下 得 到 的 模型 很 不 稳定 ， 无 法 进行 长 期 预测 。 一 般 来 说 此 时 就 
需要 做 进一步 的 变量 选择 以 及 增加 交互 作用 项 等 ， 以 便 得 到 再 现 性 更 强 
的 模型 。 然 而 ， 在 本 例 中 ， 是 否 能 够 建立 模型 才 是 我 们 所 关注 的 ， 所 以 
暂时 不 需要 进行 上 述 工作 。 这 次 我 们 需要 建立 的 模型 并 不 一 定 要 长 期 有 
效 ， 只 要 能 够 在 本 例 中 使 用 即 可 ， 也 就 是 所 谓 的 一 次 性 模型 。 由 于 从 一 
开始 我 们 就 没有 包含 正解 的 数据 ， 因 此 就 不 用 再 拘泥 于 模型 的 精度 或 者 
是 再 现 性 。 综 上 ， 我 们 建立 的 模型 至 少 在 本 案例 中 不 存在 使 用 上 的 问 
题 ， 我 们 用 它 来 继续 进行 下 面 的 工作 。 





























使 用 建立 的 模型 进行 预测 

接着 ， 我 们 使 用 之 前 建立 的 模型 进行 预测 。 模 型 的 预测 值 是 “账号 
迁 转 的 概率 "。 当 这 个 值 大 于 0.5 时 我 们 取 1 (账号 迁 转 )， 小 于 0.5 时 则 
取 0 (用户 流失 )， 生 成 如 下 数据 。 





1/1 12 1/3 1/4 1/5 … 1/31 实际 值 概率 预测 值 


471341 有 2 0.43 0 





503874 i 0.11 0 
0.00 0 





1163733 





1454629 
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利用 上 述 数据 ， 我 们 来 对 模型 进行 验证 。 确 认 预 测 值 和 实际 值 之 间 
差异 大 小 的 方法 有 很 多 ， 这 里 我 们 使 用 下 表 所 示 的 交叉 统计 表 。 
a 


2 月 使 用 情况 用 户 流 失 ( 预测 值 ) 账号 迁 转 ( 预测 值 ) 














此 例 中 ,经 由 逻辑 回归 分 析 建 立 的 模型 中 预测 为 “1”( 账号 迁 转 ) 





的 用 户 分 布 在 “账号 迁 转 ( 预测 值 》 那 一 列 ， 而 实际 发 生 账号 迁 转 的 
用 户 分 布 在 “账号 迁 转 ( 实际 值 那 一 行 。 

由 上 表 可 知 ， 模 型 预测 为 “流失 ”的 用 户 有 180 名 ， 而 这 180 名 用 
户 确实 不 再 来 了 ， 模 型 预测 “账号 迁 转 ” 的 42 名 用 户 也 确实 迁 转 了 账 
号 。 预 测 的 准确 率 为 (180 + 42) / (180 + 10 + 20 + 42) = 88%。 这 个 准确 
率 比 较 高 ， 基 本 可 以 认为 我 们 得 到 了 一 个 值得 信赖 的 预测 模型 。 然 而 在 
实际 使 用 中 ， 直 接 使 用 上 述 模型 是 不 行 的 ， 我 们 需要 通过 交叉 检验 的 方 
法 来 做 进一步 的 验证 。 


恨 据 预测 结果 推测 用 户 群 


该 模型 中 预测 值 为 “1”( 账号 迁 转 ) 而 实际 流失 的 用 户 有 10 名 ， 
可 以 认为 这 些 人 是 因为 账号 迁 转 失败 而 流失 的 。 也 就 是 说 ， 我 们 根据 过 








去 的 访问 情况 推测 出 用 户 应 该 会 将 账号 迁 转 设 定 后 继续 使 用 ,但 实际 上 
这 群 流失 的 用 户 由 于 账号 迁 转 失 败 而 不 再 访问 游戏 了 。 

因此 ， 在 观察 了 实际 的 访问 情况 之 后 (参考 7.7 节 )， 我 们 可 以 断定 
这 次 的 模型 符合 实际 的 客观 情况 ， 是 值得 信赖 的 ， 并且 也 证 明了 “账号 
迁 转 设 定 失败 导 华 用 户 流 失 ” 的 影响 较 小 这 个 假设 是 正确 的 。 
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解决 对 策 








在 本 例 中 ， 我 们 的 分 析 流 程 如 下 所 示 。 


e@ 事实 
> 非 智 能 手机 用 户 量 的 减少 比 智能 手机 用 户 量 的 增加 要 大 
> 当 用 户 从 非 乔 能 手机 更 换 到 乔 能 手机 后 ， 重 新 注册 游戏 账号 的 
用 户 数 很 少 〈 从 问卷 调查 中 得 出 的 结论 ) 
e 假设 
> 从 非 知 能 手机 更 换 到 稼 能 手机 时 ， 游 戏 账号 的 迁 转 设 定 失 败 导 
人 于 用 月 证 六 
e@ 基于 分 析 方 法 和 结果 而 采取 的 解决 对 策 
> 使 用 用 户 访问 情况 数据 来 建立 “账号 迁 转 用 户 ” 和 “流失 用 
户 ” 的 判别 模型 
令 能 够 建立 有 效 的 模型 : 因 游 戏 账号 迁 转 设 定 失败 而 导致 的 用 
户 流失 的 影响 较 小 
> 改进 面 癌 智能 手机 新 用 户 的 商业 宣传 
令 不 能 建立 有 效 的 模型 ， 因 游戏 账号 迁 转 设 定 失败 而 导致 的 用 
户 流失 的 影响 较 大 
> 人 简化 游戏 账号 的 迁 转 设 害 


























我 们 的 假 六 是 “在 智能 手机 上 游戏 账 志 迁 转 设 定 失败 导致 流失 的 用 
户 很 多 ”， 而 根据 分 析 的 结 采 ， 因 账号 迁 转 设 定 失 败 而 流失 的 用 户 占 整 
体 流失 用 户 的 比例 很 小 。 因 此 ， 我 们 决定 按照 最 初 的 讨论 方案 ,改进 面 
癌 智 能 手机 新 用 户 的 商业 宣传 。 
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在 本 章 中 ， 我 们 进行 了 逻辑 回归 分 析 。 下 面 我 们 来 总 绪 一 下 本 章 中 
数据 分 析 的 成 本 ,如 下 表 所 示 。 

在 本 例 中 ， 相 比 于 数据 分 析 和 建立 模型 ， 前 期 的 数据 收集 和 加 工人 花 
费 了 更 多 的 精力 。 而 在 实际 的 商业 领域 ， 在 数据 收集 阶段 经 常会 磁 到 不 
存在 带 正 解 的 数据 的 情况 ， 或 者 是 没有 适用 于 分 析 方 法 的 数据 而 需要 我 
们 自己 去 加 工 的 情况 。 该 者 通过 本 章 的 内 容 就 可 以 对 实际 数据 分 析 中 的 
困难 有 所 了 解 。 

分 析 流 程 第 7 章 中 数据 分 析 的 成 本 


发 现 问题 

















数据 的 收集 和 加 工 





数据 分 析 


解决 对 策 
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读 入 CSYV 数据 


# 读 入 数据 
dau <- read.csv('"section7-dau.csv'", header = T, stringsAsFactors = F) 
head (dau) 


## region month region day app name user id device 


1 2013-01 2013-01-01 game-02 10061580 FP 
; #2 2013-01 2013-01-01 game-02 10154440 FP 
;3 2013-01 2013-01-01 game-02 10164762 SP 
; #4 2013-01 2013-01-01 game-02 10165615 FP 
; 5 2013-01 2013-01-01 game-02 10321356 FP 
| 朱 6 2013-01 2013-01-01 game-02 10406653 Sp 





关于 用 户 是 否 进行 了 账号 迁 转 的 数据 的 整理 
我 们 先 整理 出 从 非 智 能 手机 更 换 到 智能 手机 并 进行 了 账号 迁 转 设 定 








的 用 户 数据 。 
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R-CODE 
# MAU eros, 


ma wnliaque lgaul cl reaqlonmenel ee ge ee usereig le 

# FP MAU 

Emo unrove (dauldau device== "Ep eeu regremnmonen ee dvice 
senadq lu 

# SP MAU 

EU Uleadekee== SP eName eyee 
Use ne ll 


输入 unique (AA[，c ("XX","YY", "ZZ")]) 后 ， 数 据 AA 中 就 只 
留 了 属性 Xx、YY 和 zz 所 在 的 行 。 如 果 XxX 的 值 不 同 ， 而 属性 YY 和 22 
的 值 相 同 ， 则 双方 的 数据 都 会 保留 下 来 。 如 末 属 性 xXx、YY 和 zz 的 值 全 
部 相同 ， 则 会 被 视 为 重复 的 数据 而 被 删除 ， 只 保留 其 中 一 个 。 

在 这 里 我 们 根据 每 天 的 访问 数据 DAU 来 生成 每 月 的 访问 数据 。 由 于 
at 问 的 用 户 会 有 31 份 数据 被 保存 下 来 ， 为 了 将 这 ee 1 
， 我 们 忽略 属性 region_day 的 重复 信息 ， 并 使 用 uni que 困 数 ， 
ey month、device 和 user id 这 3 个 属性 的 值 都 唯一 ee 

通过 执行 unique (AA [AAS$SXX="xxx"，c("X","Y", "Zz")] )， 我 们 可 
以 从 数据 AA 中 提取 属性 xx 的 值 为 xxx 的 数据 ， 并 在 此 基础 上 得 到 属性 
X、Y 和 2 的 值 不 发 生 重 复 的 数据 。 


R-CODE 
# 分 别 获取 1 月 份 和 2 月 份 的 数据 




















tpamaule < fo maulteo mu egronamont es 0 3 0 | 

ED men Eo ma mau regronnmnene "20 502 | 

sp mau sp mu ma reqLonnmenene = 00 0 | 

sp mu2 < “Spmaulsp mau>reoaron monthe = 22001202 | 

# 1 月 份 的 非 智 能 手机 用 户 在 2 月 份 的 访问 情况 

Us 

fpsmaul meragelfip maul naulmausreononsnonme miE== "7003 U2 
OS ee ne 


tp meal evaccesslLe nal(fp mul Ler aceess) | 0 
head (fp .maul) 


在 这 里 ， 我 们 将 非 乔 能 手机 用 户 ( FP，Feature Phone ) 和 智能 手机 
用 户 (SP，SmartPhone ) 的 数据 各 目 分 开 ， 并 生成 按 月 统计 的 用 户 数 
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据 。 在 此 基础 上 ， 我们 将 数据 分 为 上 月 (1 月 ) 和 本 月 (2 月 ) 两 部 分 ， 
由 此 得 到 数据 fp .mau1l、fp.mau2、sp.maul、sp.mau2。 

接着 我 们 输入 mau$is access <- 1, 将 mau 数据 的 is.access 属 
性 全 部 设置 为 “1”。 基 于 这 份 数据 ， 再 和 其 他 数据 合并 ， 我 们 就 可 以 判 
汤 用 户 在 2 月 份 是 否 也 来 访问 过 。 这 样 在 mau 数据 里 就 保存 了 1 月 和 2 
月 都 曾 访问 过 游戏 的 用 户 数据 。 

我 们 知道 在 数据 fp . maul 中 保存 的 是 非 智 能 手机 用 户 1 月份 的 数 
据 。 将 数据 mau 中 2 月 份 的 数据 提取 出 来 ， 和 fp .maul 合并 ， 这 样 就 
能 够 判 靳 在 1 月份 进行 过 访问 的 非 乔 能 手机 用 户 在 2 月 份 是 否 继续 访问 了 。 
最 后 通过 命令 fp.maul$is _ access [is.na(fp.maul$is access)]<- 0 
将 合并 之 后 出 现 的 缺失 值 ( NA ) 替换 为 “0”。 

经 过 上 述 处 理 ， 我 们 得 到 了 数据 fp .maul。 























@ fp.mauli 


## 1 397286 2013-01 FP 1 
## 2 471341 2013-01 FP 1 
## 3 503874 2013-01 FP 0 
## 4 512250 2013-01 FP 下 
## 5 513811 2013-01 FP 
## 6 638688 2013-01 FP 1 


另外 ， 根 据 上 述 的 数据 fp .mau2 中 2 月份 用 户 的 使 用 情况 ， 我 们 可 
以 区 分 出 2 月 份 来 访问 的 用 户 中 有 多 少 是 一 直通 过 非 智 能 手机 来 访问 的 
用 户 @ 


R-CODE 
# 1 月 份 访问 过 游戏 的 非 智 能 手机 用 户 在 2 月 份 是 否 是 继续 通过 非 智 能 手机 来 访问 的 


WaS 湖上 < 站 
前 mraelio mou sp nu ee uer ud Til 
B= USer Lo 








ll 芭 三 下) 
fp.maul$is fpl[lis.na(fp.maul$is fp)] <- 0 
head (fp .maul) 


通过 fp.mau2$is fp <- 1 将 fp.mau2 中 的 is fp 属性 全 部 设置 为 “1”。 
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然后 再 将 fp .maul 和 fp .mau2 两 个 数据 合并 。 如 果 用 户 在 这 两 个 月 都 是 用 
非 智 能 手机 访问 的 ， 那 么 合并 后 is_ fp 属性 的 值 为 “1”， 否 则 便 是 代表 
数据 为 空 的 “NA”。 又 因为 “NA” 不 便于 后 续 处 理 ， 所 以 我 们 通过 
fp .maul$is fp[lis.na(fp.maul$is fp)]<- 0 将 “NA” 置 换 为 “0”。 


@ fp.mauli 


## 1 397286 2013-01 FP 1 1 
## 2 471341 2013-01 FP 1 0 
## 3 503874 2013-01 FP 0 0 
## 4 512250 2013-01 FP 1 1 
#5 .5138611 2013-01 FP 1 1 
## 6 638688 2013-01 FP 1 lL 


Ny re rh id jl te i fe ee ed i ed i ed se, Viel ,ee Wiad, ed jd) id Ne, totes el ee Sed sd i pi, Tie i ed it tid ed li te tend el ee i hi ed ie, Nice i et iti dl i Ne ee ee, ee Wd i din, i td Jee, Sik, nd td. el i te ee el ee tik, ti ed) ed eid, tia peel tie et sid el ee ee el ee 


然后 ， 我 们 区 分 出 那些 在 1 月 份 通过 非 智能 手机 访问 而 在 2 月 份 变 
成 通过 智能 手机 来 访问 的 用 户 。 





# 1 月 份 访问 过 游戏 的 非 智 能 手机 用 户 在 2 月 份 是 否 是 通过 智能 手机 来 访问 的 705, 
sp mau > Ls sp 1 
tpemeul mergelio mau esp mu le ner rd |, 
l= er LL 
fp.maul$is spl[lis.na(lfp.maul$is sp)] <- 0 
head (fp.mau1l) 





月 
我 们 需要 增加 一 个 is_sp 属性 ， 并 将 其 全 设置 为 “1”。 然 后 再 将 这 份 数 
据 和 fp .maul 数据 合并 。 这 样 一 来 ,在 fp .maul 中 就 增加 了 2 月 份 智 
能 手机 用 户 的 数据 。 合 并 后 的 结 采 如 下 所 示 。 


sp .mau2 中 保存 的 是 2 月 份 通过 智能 手机 来 访问 的 用 户 数据 。 这 里 
7 








图 灵 社 区 会 员 miguo(1602526088@qq.com，) 专 享 尊重 版 权 


154 | 第 7 章 根据 过 去 的 行为 能 否 预测 当下 


@ fp.maul 


## 1 397286 2013-01 FP 1 1 0 
; ## 2 471341 2013-01 FP 1 0 l | 
村 3 503874 2013-01 FP 0 0 0 | 
村 4 512250 2013-01 FP 1 1 0 
村 5 513811 2013-01 FP 1 1 0 
: ## 6 638688 2013-01 FP 1 1 0 


接着 我 们 要 从 这 份 数据 中 提取 出 逻辑 回归 分 析 所 需要 的 数据 。 我 
们 从 上 一 步 得 到 的 fp .maul 数据 中 提取 出 is_access==0 (2 月 份 没 有 
访问 的 用 户 ) 或 者 is _sp==1(〈2 月份 通 过 智能 手机 访问 的 用 户 ) 的 部 
分 。 其 中 记号 “|” 表 示 “ 或 ”的 关系 ， 也 就 是 两 个 条 件 只 要 满足 其 一 
即 可 的 意思 。 R-CODE 


## 工 月 份 通过 非 智能 手机 访问 但 2 月 份 没 有 访问 的 用 户 ， 或 者 通过 智能 手机 访问 的 用 户 
Fo maul < fo.maul[lip mauloie accese =—0° fe maul ie op = IT 
head (fp.mau1l) 


@ fp.maut1 

# 间 UBer 10 YegLlon Wonth device 18 Socess 1 fp 18.8b 
## 2 471341 2013-01 FP 1 0 1 从 之 前 的 
## 3 503874 2013-01 FP 0 0 0 ”数据 中 过 | 
: ## 11 1073544 2013-01 FP 0 0 0 ” 滤 掉 “is 
## 12 1073864 2013-01 FP 0 0 0 access=1, | 
! 料 14 1163733 2 FP 1 0 1 is_sp=0” | 
! #15 1454629 on ile FP 0 0 0 ”的 内 容 | 





这 样 我 们 就 得 到 了 可 用 于 人 逻辑 回归 分 析 的 数据 fp .maul。 
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天 于 是 否 每 天 访问 游戏 的 数据 的 整理 


R-CODE 
library (reshape2) \07-07/ 


Foradeule dauldau device = RE ESTreoonmonene "703 0 
pedan ls Loaccese 1 








tpvdaulseast < deaot (lip du US er 1 Eeeoronnay ValUe varces 
naceces se Funceuon x naraceer (lenger x 


names (fp.daul.cast) [-1] <- paste0("X", 1:31, "day") 
head (fp.daul .cast) 


我 们 从 aau 数据 中 提取 2013 年 1 月 非 智 能 手机 用 户 的 数据 ， 然 后 
使 用 dcast 郴 数 进 行 整 理 ， 得 到 fp .daul.cast 数据 。 由 于 数据 中 属性 
的 名 称 各 不 相同 ， 因 此 我 们 输入 names (fp.daul.cast)[-1]<- 
paste0("X",1:31,"day") ， 在 除 第 一 行 以 外 的 属性 上 添加 属性 名 。 借 
助 paste0 将 其 后 的 内 容 紧 密 合 并 在 一 起 ， 此 人 处 paste0 将 X 和 day 合 
在 一 起 组 成 一 个 属性 名 "x*day"， 其 中 中 间 的 “*” 为 一 个 1 ~ 31 的 数 。 
这 样 就 可 以 得 到 下 面 的 数据 fp.daul .cast。 





@ fp.dau1.cast 


## user id Xlday X2day X3day X4day X5day X6day … X29day X30day X31day 


## 1 397286 1 1 1 1 1 1 1 1 1 
## 2 471341 1 1 1 1 0 0 0 0 0 
## 3 503874 1 0 0 0 0 0 0 0 0 
## 4 512250 1 1 I 1 1 1 LL 1 1 
HH 5 SIi3911 0 0 0 0 0 0 i 0 于 
## 6 638688 1 1 I 1 1 1 1 1 1 


我 们 将 这 个 数据 和 之 前 得 到 的 用 户 访问 数据 fp .maul 合并 起 来 。 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


156 | 第 7 章 根据 过 去 的 行为 能 否 预测 当下 


R-CODE 

SO 07-08 

# 将 2 月 份 的 访问 数据 和 智能 手机 用 户 数据 合并 7-084 
tp aul east < gmergelfip deoul cease eo meetUseaanq 二 


Spy ls 
[2 We MG 
head (fp.daul .cast) 


经 过 上 述 处 理 ， 我 们 就 能 够 得 到 下 面 的 数据 fp .daul.cast。 在 这 
份 数据 中 ， 对 于 那些 1 月 份 访问 过 的 非 智 能 手机 用 户 ， 标 记 为 “0” 的 用 
户 为 流失 用 户 ， 标 记 为 “1” 的 用 户 为 2 月 份 通过 智能 手机 来 访问 的 用 户 。 








@ fp.dau1.cast 


et ed ed ed i ie a 1 i dd We i ed a td ed ed eh heed ee a td ed dd i i et i ed i ed ed i a te ed i i et ed dd Wed, eh et i te ed id te Ne ee ied we dd ed ed ie ed a ed te di de ed te i ed 


## 1 471341 1 1 1 J 0 0 0 
## 2 503874 1 
## 3 1073544 0 
## 4 1073864 0 
## 5 1163733 1 
## 6 1454629 0 





Eeeuionaqasau Icesensesol 


@ fp.maul 
### 0 1 、 人 
RE 一 共计 190 + 62 = 252 名 用 户 的 数据 


通过 table 函数 ， 我 们 可 以 统计 出 符合 要 求 的 数据 。 经 确认 ， 标 记 
为 “0” 的 用 户 有 190 名 ,标记 为 “1” 的 用 户 有 62 名， 共计 252 名 。 





基于 逻辑 回归 分 析 建 立 模 型 
glinmasnseo aeaEE EDE9auleeasel 0 Way 


family = binomial) ) 
summary (fit.1ogit) 
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| 振 Call， 
## glm (formula = is sp ~ Xlday + X4day + X5day + X7day + Xl0day + | 
### Xl3day + X22day + X29day + X31lday, family = binomial, data I 
= fp.daul.cast | ， 
机 带 册 
井 井 1 
!' ## Deviance Residuals: | 
## Min 10 Median 30 Max 中 残 差 的 分 布 
; ## -1.9554 -0.4517 -0.2318 -0.0612 2.6946 
大 
## _ Coefficients: 本 二 
; 枯 # Estimate Std. Error z value Pr ( >|z| | 
; ## (Intercept ) -3.604 0.427 -8.44 <2e-16 xy 
;  ## Xldayl 1.533 0.572 2.68 0.0073 xx | 
i ## X4dayl 1.775 0.642 2.76 0.0057 xx 
; ## X5day1 -1.035 0.762 -1.36 0.1744 1 
; ## X7dayl 1.700 0.711 2.39 0.0168 * 器 系数 的 | 
; ## Xl0dayl -2.675 0.942 -2.84 0.0045 xx 2 
; ## X13day1 ve 0.755 1.82 0.0689 . Ps 
; 樟 X22dayl 1.623 0.638 2.54 0.0110 * 
; ## X29dayl 2.001 0.648 3.09 0.0020 xx 

## X31day1 1 0.814 2.13 0.0335* | : 

## -=-- | 
;所 Signif. codes: 0 xxx1 0.001 xx 0.01 xz 0.05 .01 1 11 : 
!  ## ' 


! ## (Dispersion parameter for binomial family taken to be 1) ' 
## 
## Null deviance: 281.20 on 251 degrees of freedom ' 


1 ## Residual deviance: 126.73 on 242 degrees of freedom 


，。 振 愉 IC: 146.7] @ 赤 池 信息 量 准则 ‘ 
; 掉 


## Number of Fisher Scoring iterations: 6 


NE OE | 


我 们 使 用 glm 函数 来 进行 逻辑 回归 分 析 。 在 该 函数 的 使 用 过 程 中 ， 
震 要 将 选项 family 设 为 pinomial， 才 能 顺利 进行 逻辑 回归 分 析 。 

男 外 ， 我 们 还 使 用 了 step 图 数 。step 也 数 以 赤 池 信息 量 准则 
(AIC ) 为 标准 ， 能 够 对 模型 中 目 变 量 的 增 减 进行 目 动 的 探寻 和 选择 。 在 
本 次 的 逻辑 回归 分 析 中 ， 我 们 就 使 用 了 step 也 数 来 建立 模型 。 
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利用 生成 的 模型 来 进行 预测 


利用 逻辑 回归 分 析 所 得 到 的 模型 ， 我 们 来 计算 出 账号 迁 转 设 定 的 概 
率 。 在 有 语言 中 ， 可 以 使 用 fitted 也 数 来 获取 预测 值 。 


4 智能 手机 账号 迁 转 设 定 的 概率 BY 


fy 6a .Gastedord <= To (itEted(int., looE), 2) 











# 预测 在 智能 手机 上 是 否 进行 了 账号 迁 转 设 定 
fp.daul.cast$pred <- ifelse(fp.daul.cast$prob > 0.5, 1, 0) 


head (fp.daul .cast) 


我 们 将 预测 值 填 入 fp .daul.cast 数据 的 prob 属性 中 。 为 了 接 下 
来 的 模型 可 信 度 分 析 ， 我 们 使 用 了 ifelse 因数 。 当 预测 值 大 于 0.5 时 ， 
就 认为 这 个 账号 发 生 了 迁 转 设 定 ， 并 将 其 设置 为 “1”。 而 当 预 测 值 小 于 
0.5 时 ， 则 认为 这 个 账号 的 用 户 已 经 流失 了 ， 因 此 将 其 设置 为 “0”。 





@ fp.dau1.cast 


## 工 471341 1 下 1 . 0 0 人 0 1 0.43 0 
## 2 503874 1 0 0 0 0 0 0 0 0.11 0 
## 3 1073544 0 0 0 0 0 0 0 0 0.00 0 
## 4 1073864 0 0 0 0 0 0 0 0 0.03 0 
## 5 1163733 1 1 0 0 0 0 0 1 0.39 0 
## 6 1454629 0 0 0 0 0 0 0 0 0.10 0 


到 目前 为 止 ， 我 们 收集 了 分 析 所 需 的 每 个 用 户 账号 的 各 种 信息 。 我 
们 首先 统计 了 上 个 月 每 一 天 的 用 户 访 问 情况 ， 如 果 当 天 有 访问 则 设置 为 
“1”， 没 有 访问 则 设置 为 “0”。 人 然后 计算 属性 1s_sp 的 值 ， 再 计算 得 到 
prob 预测 值 ( 账号 迁 转 设 定 的 概率 )， 并 以 0.5 为 基准 将 属性 pred 设 定 
为 离散 值 0 和 1。 

这 里 我 们 使 用 最 后 一 列 属 性 pred 来 对 模型 的 可 信和 度 进行 验证 。 确 
认 预 测 值 和 实际 值 之 间 差 异 的 方法 有 很 多 ， 一 个 简单 的 方法 就 是 使 用 
table 国 数 来 进行 统计 。 
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R-CODE 
# 预测 值 和 实际 值 \07-12/ 


Eaplelfp dauleeast le (lis sD De 
## pred 


is_sp 为 2 月 份 实际 的 账号 迁 转 设 定 情况 ， 
并 0 180 10 pred 为 基于 1 月 份 的 数据 所 预测 的 账号 迁 转 设 定 情况 


在 本 例 中 ， 经 由 逻辑 回归 分 析 生 成 的 模型 中 预测 值 为 “1”( 账 
号 迁 转 设 定 ) 的 用 户 归 属于 “账号 迁 转 设 定 (预测 值 )” 那 一 列 ， 而 
实际 发 生 账 号 迁 转 设 定 的 用 户 归 在 了 “账号 迁 转 设 定 ( 实际 值 )” 那 
人 

可 以 看 出 ， 模 型 预测 为 “流失 ”的 用 户 有 180 名 ， 而 这 180 名 用 户 
确实 不 下 来， 模型 预测 “账号 迁 转 ”的 42 名 用 户 也 确实 迁 转 了 账号 。 
预测 的 准确 率 为 (180 + 42) / (180 + 10 + 20 + 42) = 88%。 这 个 准确 率 比 
较 高 ， 基 本 可 以 认为 我 们 得 到 了 一 个 值得 信赖 的 预测 模型 。 





恨 据 预 测 结果 来 推测 用 户 群 


有 10 名 用 户 在 模型 中 的 预测 结 琳 为 “1”( 账号 迁 转 设 定 )， 而 实际 
上 为 流失 的 用 户 。 根 据 过 去 的 访问 情况 来 推 其 ， 这 些 用 户 应 该 进行 了 账 
号 迁 转 设 定 ， 然 而 实际 上 他 们 却 属 于 流失 的 用 户 和 群体 。 

下 面 我 们 来 看 一 看 这 些 用 户 的 实际 访问 情况 。 

















fp dauleecast le to du caselipo dul eat LNs 0 to dau 
casts$pred == 1, | 
head (fp.dqaul.cast1l [order (fp.daul.castls$prob, decreasing = T), |]) 





在 fp.dqaul.castl 中 保存 了 is _ sp=1 (用 智能 手机 访问 过 的 用 户 ) 
并 且 预 测 值 为 “1” 的 用 户 。 然 后 使 用 ordet 图 数 order (fp .daul. 
cast1$prob, decreasing = T), 将 fp.daul.cast1 数据 按照 prob 


列 的 值 由 大 到 小 的 顺序 来 排列 。 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


160 | 第 7 章 根据 过 去 的 行为 能 否 预测 当下 








数据 中 预测 值 和 实际 值 都 为 “1” 的 用 户 确实 是 仍 在 频繁 地 访问 
游戏 。 


@ fp.dau1.casti 


# 丰 user id Xlday X2day X3day X4day X5day X6day X7day X8day X9day Xl0day 
(机 137 24791702 1 1 0 1 0 lL 1 1 lL 和 
; 朱 138 24791702 1 i 0 1 0 1 1 1 1 1 
i 检 22 5526146 1 1 1 1 1 1 
i 振 44 9567562 1 1 lL 1 和 1 | 
机 45 9567562 1 lL 1 和 lL 1 和 lL 
大 86 16557842 1 1 和 lL 1 LL 1 | 
: 村 Xllday Xl2day Xl3day Xl4day Xl5day Xl6day X17day Xl8day Xl9day X20day : 
! 杰 137 1 lL | | | 1 1 0 本 
杰 138 1 | 1 1 1 1 1 1 0 EL 
类 22 1 1 1 1 1 1 1 1 二 
杰 44 1 1 1 1 1 0 E 
禁 45 1 | 1 1 1 1 1 1 0 二 村 
; 禁 86 1 1 1 1 1 1 1 1 1 os 
## X21day X22day X23day X24day X25day X26day X27day X28day X29day X30day 
; 振 137 1 1 1 1 lL 1 1 1 
: 振 138 l 1 1 i 1 i 1 | 
; 拉 22 1 1 1 1 1 1 1 1 1 T 
亲人 1 1 1 1 i 
## 45 1 1 L 1 1 1 1 1 | 1 
## 86 1 1 1 1 1 1 1 1 1 1 
## X31day is sp prob pred : 
; 杰 137 1 1 | 
! 挫 138 1 11.00 1 
有 1 10.99 1 
; 振 44 1 10.9 1 
i 搬 45 1 10.99 1 
本 86 1 1099 1 | 





接着 我 们 来 看 一 看 那些 预测 值 为 “1” 而 实际 值 为 “0” 的 用 户 的 访 
问 情况 。 


Edqauwiecase sqauUiesess apesqaulReasensepaE== Taw 
Gastdored == 1, |] 
head (fp.daul.cast2 [order (fp.daul.cast2$prob, decreasing = T), |]) 
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@ fp.dau1.cast2 


## user id Xlday X2day X3day X4day X5day X6day X7day X8day X9day Xl0day 
; 振 10919432099 1 1 1 1 0 1 1 1 1 站 
1 撑 195 41590801 0 0 0 0 0 0 0 0 0 FF | 
机 204 43451947 1 1 1 1 1 0 1 1 1 iT 
i 糙 198 42276142 站 生 二 4 了 0 1 1 | 
冰 28 6147878 1 0 0 1 1 1 1 1 1 国有 
; 捍 210 46285446 0 0 0 0 1 1 1 1 1 0 | 
| ## Xllday Xl2day Xl3day Xl4day Xl5day Xl6day Xl7day Xl8day Xl9day X20day : 
: ## 109 1 | 1 1 0 | 1 0 1 i 
i 捧 195 0 0 0 0 0 0 0 0 0 EE 
; 振 204 0 0 0 0 0 0 0 0 1 os 
i 挫 198 0 1 0 1 1 1 1 J 
i 挫 28 1 i 1 1 1 1 1 1 国有 
; 振 210 0 0 1 1 0 1 0 0 0 | 
## X21day X22day X23day X24day X25day X26day X27day X28day X29day X30day ; 
; 捧 109 1 1 0 0 0 0 0 0 0 | 
; 振 195 0 0 0 0 0 0 人 J 
大 204 0 1 0 0 1 0 0 1 和 | 

所 198 1 1 1 1 1 1 1 | 1 0 | 

## 28 1 1 1 1 1 0 0 0 0 
; 禁 210 1 0 1 1 1 1 1 0 1 0 
拓 # X31qay is sp prob pred 
; 振 109 00.85 1 
; 森 195 1 00.85 1 
类 204 0 00.79 1 
和 198 1 I 

## 28 0 00.67 1 

## 210 0 00.61 1 


| 





这 里 我 们 也 只 提取 出 符合 条 件 的 用 户 数据 并 保存 在 fp .daul .cast2 
中 ， 然 后 使 用 order 函数 将 数据 按照 prob 值 由 大 到 小 的 顺序 排列 出 来 。 

我 们 发 现 ， 数 据 中 “1” 出 现 的 次 数 很 多 ， 这 表明 大 多 数 用 户 在 1 
月 份 还 是 很 频繁 地 访问 游戏 的 。 这 10 名 用 户 在 这 上段 时 间 对 游戏 仍 有 很 
强烈 的 兴趣 ,不 太 可 能 是 因为 兴趣 变 淡 了 而 不 再 访问 游戏 。 

接着 我 们 来 看 一 看 那些 预测 值 和 实际 值 都 为 “0” 的 用 户 的 访问 情 
况 ， 这 类 用 户 已 经 不 再 参与 游戏 了 ， 我 们 来 确认 一 下 他 们 之 前 的 访问 情况 。 

可 以 看 出 ， 这 些 用 户 已 经 不 怎么 来 访问 了 ， 他 们 对 游戏 的 兴趣 在 逐 
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渐 降 低 ， 因 此 也 就 慢 慢 地 不 再 来 访问 了 。 

通过 上 述 内 容 可 以 看 出 ， 本 例 中 建立 的 模型 的 可 信和 度 较 高 ， 也 就 是 
说 ， 当 初 设立 的 假设 “账号 迁 转 设 定 失 败 而 导致 用 户 流失 ”的 影响 较 
小 ， 从 实际 人 数 上 来 看 也 只 有 10 名 用 户 。 











toradaul cas > < ftp dauleast [fovdaul castols sp == 0 fprdaul 
castspred == 0, | 
head (fp.daul.cast3 [order (fp.daul.cast3$prob), |]) 


@ fp.dau1.cast3 


ee te de ed ee be ee ee ee ti i dd te Ne bd i ti i ee ed ele bi i a ted i hd te i i el ed i bed a ed de i th ed Vd te dh dl ee i i ed i et i ed ed ie i eh ee i bi i ed dl i Ne ied a i tei nh ed tied te i ah ee Vd te i i dl i i ed i i i ed i 


## user id Xlday X2day X3day X4day X5day X6day X7day X8day X9day Xl0day 
;所 3 1073544 0 0 0 0 0 0 0 0 0， i 
; 振 11 25417411 0 0 0 0 0 0 0 0 1 | 
; 林 150 27249550 0 0 0 1 1 1 0 0 0 和 
; 振 243 60725457 0 0 0 0 0 0 0 0 0 加 
; 振 71 13967453 0 0 0 0 1 0 0 0 0 0 | 
; 振 88 16601600 0 0 0 0 1 0 0 0 0， 0 | 
## Xllday Xl2day Xl3day Xl4day Xl5day Xl6day Xl7day Xl8day Xl9day X20day | 
; 挫 3 0 0 0 0 0 0 0 0 0 0 | 
; 捧 11 0 0 0 0 0 0 0 0 0 0 | 
: 挫 150 0 1 0 0 0 0 0 0 0 0 | 
杰 243 0 0 0 0 0 0 0 0 0 0 | 
; 捧 71 0 0 0 0 0 0 0 0 0 0 | 
; 88 0 0 0 0 0 0 0 0 0 0 | 
! 机 X21lday X22day X23day X24day X25day X26day X27day X28day X29day X30day 
3 0 0 1 1 1 0 0 0 0 0 | 
; 挫 11 0 0 0 0 0 0 0 0 0 0 | 
大 150 0 0 0 0 0 0 0 0 0 让 
; 挫 243 0 0 0 0 0 0 0 0 0 让， 
: 迭 71 0 0 0 0 0 0 0 0 0 0 | 
; 拉 88 0 0 0 0 0 0 0 0 0 人 
| ## X31lday is sp prob pred 
; 拉 3 0 00.00 0 | 
: 森 11 0 00.00 0 
; 捧 150 0 00.00 0 
: 朱 243 0 00.00 0 
杰 71 0 00.01 0 | 
和 88 0 00.01 0 | 


i i re ee de Se ee ee tee, se Fi ed ee, Vee ee ie i dd Se eh teed, ped Fd ed ei et, ti nt, dd teed See el sth, ped i eed” eee fet jel el ti eh, Bd a ee ek, eh et nd. ed Jee” Vine, Tee, eet ee ee in tnt deed Win ee, eh Ne, sie nid i i joel ed hic, ded, Ne ee, et eed bet 
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第 8 章 
案例 @ 一 聚 类 


应 该 选择 什么 样 的 目标 用 
尸 群 


社交 游戏 的 用 户 分 类 

我 们 发 现 《 黑 猫 拼 图 》 游 戏 的 用 户 数 量 在 经 历 了 一 段 时 间 的 
持续 增长 后 ， 最 近 几 个 月 一 直 停 沛 不 人 前。 之 表 公 司 都 是 以 扩 
展 新 用 户 为 重点 ， 而 今后 也 需要 关注 如 何 服务 好 已 有 的 游戏 
用 户 。 因 此 ， 我 们 需要 利用 数据 分 析 来 了 解 现 有 的 用 户 有 何 
特点 ， 那 么 我 们 该 怎么 做 呢 ? 
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希望 了 解 用 尸 的 特点 





将 重点 由 新 用 户 转 移 到 已 有 用 户 上 


我 们 在 传统 媒体 上 投放 《 黑 猫 拼图 》 游 戏 的 广告 后 ， 用 户 人 数 持续 
增长 ， 但 最 近 几 个 月 却 一 直 停滞 不 前 。 到 目前 为 止 ， 由 于 流入 的 新 用 户 








数量 较 多 ， 我 们 一 直 都 是 以 新 用 户 为 主要 目标 来 开展 运营 活动 的 ， 而 今 
后 也 需要 关注 如 何 服务 好 已 有 的 游戏 用 户 ， 洲 戏 的 案 划 和 运营 部 门 提 出 
了 这 样 的 要 求 。 

为 了 更 好 地 服务 已 有 的 洲 戏 用 户 ， 非 党 重要 的 一 点 就 是 了 解 已 有 用 
户 的 特点 ， 于 是 我 们 可 以 利用 数据 分 析 来 完成 这 一 工作 。 和 之 前 的 案例 
不 同 ， 本 例 中 我 们 所 面临 的 问题 并 没有 清晰 地 呈现 在 面前 ， 因 此 很 难 确 
定案 例 的 现状 和 预期 。 这 里 我 们 可 以 认为 现状 是 “目标 用 户 群 不 明确 ”， 
而 预期 是 “明确 目标 用 户 群 ”。 





























预期 
明确 目标 
用 户 群 
现状 尖 辽 
目标 用 户 群 
不 明确 
第 8 章 的 现状 和 预期 
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行为 模 陈 的 用 户 


通过 已 有 的 市 场 细 分 无 法 明确 目标 用 户 群 


为 了 了 了解“ 市 场 是 由 哪些 人 组 成 的 "， 我 们 可 以 使 用 “市 场 细 分 ” 
( Segmentation ) 的 方法 。 过 去 “市 场 细 分 ”的 方法 通常 是 使 用 用 户 的 属 
性 信息 来 进行 分 类 。 例 如 ,“ 本 公司 的 主要 目标 用 户 是 20 ~ 30 岁 的 女 
性 ”就 是 使 用 年 龄 段 来 对 用 户 进 行 分 类 。 然 而 ， 这 样 的 分 类 方法 太 过 人 简 
单 ， 并 不 能 充分 地 反映 游戏 用 户 群 体 的 特点 。 同 时 ， 这 样 的 用 户 分 类 料 
度 太 粗 ， 我 们 无 法 根据 用 户 的 喜好 来 采取 相应 的 运营 措施 。 另 外 ， 在 用 
户 玩 游戏 的 时 间 点 原本 束 会 出 现 游戏 策划 阶段 选 定 的 目标 用 户 群 ， 所 以 
得 出 的 结果 也 是 理所当然 的 。 人 例如， 如 果 我 们 在 游戏 的 策划 阶段 就 
将 “20 ~ 30 岁 的 男性 ” 选 定 为 我 们 的 目标 用 户 群 ， 那 么 即使 在 市 场 细 
分 后 得 出 了 “20 多 岁 的 男性 用 户 很 多 ”这 样 的 结论 ， 这 个 结论 也 是 已 知 
Ts 



































弟 见 的 市 场 细 分 
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能 否 根据 用 户 的 行为 模 陈 来 进行 用 记分 类 


本 例 中 我 们 进行 市 场 细 分 的 目的 并 不 仅仅 是 单纯 对 用 户 进行 分 类 ， 
而 是 方便 今后 实施 运营 策略 。 像 之 前 所 说 的 “20 ~ 25 岁 的 男性 用 户 ” 这 





样 的 市 场 细 分 就 不 能 为 今后 的 运营 策略 提供 参考 。 
因此 ， 我 们 考虑 通过 用 户 在 游戏 中 的 行为 模式 来 进行 市 场 细 分 ， 具 
体 如 下 所 示 。 





e@ 经 常 参与 战斗 的 用 户 

e@ 经 常 主动 约 战 他 人 的 用 户 

e@ 经 常 协助 他 人 的 用 户 

e@ 经 常 和 他 人 发 消息 互动 的 用 户 











也 就 是 次 ， 我 们 的 方法 是 利用 用 户 经 稼 进行 的 行为 来 理解 用 户 的 喜好 。 
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根据 行为 日 志 来 进行 市 场 细 分 
男 外 ， 我 们 可 以 参照 各 个 用 户 类 别 的 KPI (重要 业绩 评价 指标 ) 得 


到 KPI 高 的 用 户 类 别 和 KPI 低 的 用 户 类 别 在 行为 上 有 何 差 寞 ， 由 此 来 讨 
论 应 该 如 何 促使 用 户 的 行为 变化 来 提升 KPI。 





将 分 析 的 结果 与 运 宫 荣 略 相 结 合 
基于 上 面 的 假设 ， 我 们 和 游戏 的 策划 部 门 进行 了 讨论 ， 对 方 的 意 


见 是 : 
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e@ 这 样 的 市 场 细 分 可 以 方便 我 们 根据 不 同 的 用 户 类 别 采 取 相 应 的 运 
营 策 上 略 








为 外 ,我们 在 讨论 的 过 程 中 还 得 到 了 两 个 新 的 观点 : 


e@ 在 游戏 内 部 各 种 活动 的 排行 榜 上 ， 不 同 用 户 类 别 的 差异 也 很 大 
e 排名 靠 前 的 用 户 需 要 重点 对 待 ， 我 们 可 以 从 此 处 着 手 








积极 参与 游戏 活动 的 用 户 和 对 游戏 不 热心 的 用 户 确 实 大 不 相同 。 为 
外 ， 由 于 《 淡 猫 拼图》 游戏 的 销售 额 主要 来 自 于 排名 匪 前 的 用 户 ， 因 此 
充分 了 解 这 些 用 户 的 特点 是 非常 重要 的 。 

在 本 例 中 ,我 们 丈 以 排名 菲 前 的 用 户 为 分 析 对 象 ， 利 用 这 些 用 户 的 
行为 模式 来 进行 市 场 细 分 。 
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:外 名 把 主 成 分 作为 目 变 
来 使 用 





探讨 分 析 所 需 的 数据 


下 面 我 们 来 整理 一 下 事实 和 假设 ， 并 探讨 如 何 收集 和 加 工分 析 所 需 
的 数据 。 





1. 排名 靠 前 的 用 户 产 生 的 销售 额 占 总 销售 额 的 比例 很 高 (事实 ) 
2. 根据 用 户 的 行为 模式 ， 可 以 基于 “喜欢 参与 战斗 的 用 户 ”“ 喜 欢 


交流 的 用 户 ” 等 用 户 喜 好 进行 市 场 细 分 ( 假设 ) 
3. 根据 各 个 用 户 类 别 来 采取 相应 的 运营 策略 ( 解决 方案 ) 


按照 上 述 流 程 ， 我 们 以 排名 徘 前 的 用 户 群 体 为 对 象 ， 将 行为 模式 相 
似 的 用 户 划 分 在 同一 组 里 ， 并 对 不 同 的 组 采取 不 同 的 运营 策略 。 首 先 ， 
为 了 找 出 用 户 的 行为 模式 ， 我 们 需要 有 用 户 的 行为 数据 。 在 《 墨 猫 拼 
图 》 游 戏 中 ， 用 户 有 如 下 行为 。 








e@ 主动 参与 战斗 

e@ 发 送 消息 

e@ 发 出 / 接收 救援 请 求 
e@ 打败 敌 方 首领 





用 户 的 这 些 行为 都 以 共同 的 格式 保存 在 行为 日 志 当 中 。 我 们 有 两 份 
行为 日 志 ， 其 中 一 份 是 以 秒 为 单位 来 保存 的 ， 而 为 一 份 是 每 天 的 行为 统 
计数 据 。 在 本 例 中 ， 我 们 没有 必要 使 用 以 秒 为 单位 的 日 志 ， 使 用 每 天 的 
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ee 了 。 这 份 数据 如 下 所 示 。 其 中 列 Al ~ 


种 行为 的 编码 ， 
来 管理 的 。 


@ Action 


访问 日 期 
2013 年 10 
月 31 日 


2013 年 10 
月 31 日 


8.3 ”把 主 成 分 作为 目 变 量 来 使 用 








些 行为 的 编码 和 行为 日 志 名 称 是 通 


应 用 名 
《 黑 猫 拼图 》 


《 黑 猫 拼图 》 


用 户 ID A1 


654133 


425530 


A2 A3 … 


169 


A54 表示 各 


过 为 外 一 份 数据 表 


> R-CODE R-CODE 
08-01 08-03 


A52 A53 A54 


46 





2013 年 10 
月 31 日 


2013 年 -10 


《 黑 猫 拼图 》 


《 黑 猫 拼图 》 


709596 


525047 


月 1 目 





2013 年 10 


月 31 日 《 黑 猫 拼图 》 





796908 




















另外 ， 我 们 还 需要 知道 各 个 用 户 类 别 的 KPI 数据 。 在 本 例 中 ， 我 们 
需要 $ 月 到 10 月 的 ARPU 数据 ( Average Revenue Per User,， 平均 消费 


金额 ) 和 平均 访问 天 数 的 数据 。 


算得 出 。 
@ DAU 


访问 日 期 


这 两 份 KPI 数据 可 以 通 


《 黑 猫 拼图 》 





802761 


过 下 面 的 数据 计 





1 2013 年 5 月 1 日 
2013 年 5 月 1 日 
2013 年 5 月 1 日 


2013 年 5 月 1 日 


《 黑 猫 拼图 》 


《 黑 猫 拼图 》 


《 黑 猫 拼图 》 


795239 
413381 
72135b6 





2013 年 5 月 1 日 


《 黑 猫 拼图 》 


46863 
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@ DPU 
访问 日 期 
2018 第 10 月 11 自 《 黑 猫 拼图 》 106832 





2013 年 10 月 1 日 《 黑 猫 拼图 》 106832 





2013 年 10 月 1 日 《 黑 猫 拼图 》 476345 
2013 年 110 月 可 音 《 黑 猫 拼图 》 476345 





2013 年 10 月 1 日 《 黑 猫 拼图 》 885585 

















数据 加 工 
将 上 述 两 份 数据 进行 分 类 后 就 可 以 算出 两 份 KPI 数据 了 。 


R-CODE R-CODE 
08-04 08-06 


用 户 ID | 有 无 消费 | 消费 金额 




















忆 PFU 






















访问 天 数 
22 


消费 金额 








2b 
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@ 以 log_data 和 user_id 作为 key 来 合并 两 份 数据 
e@ 没有 消费 的 记录 用 0 来 标识 
@ 分 别 按 月 和 按 每 个 用 户 来 统计 总 的 消费 金额 和 访问 天 数 


访问 月 份 用 户 ID 


本 2013 年 10 月 


2013 年 10 月 





2013 年 10 月 





2013 年 10 月 


a 2013 年 10 月 


将 生成 的 数据 和 用 户 分 类 结果 合并 ， 就 能 够 计算 出 每 个 用 户 类 别 的 
ARPU 和 平均 访问 天 数 了 。 


讨论 分 析 方 法 
现在 我 们 来 讨论 如 何 使 用 上 述 行为 数据 将 相似 的 用 户 划分 到 同一 组 
里 ， 这 种 情况 下 适合 使 用 聚 类 的 方法 。 在 本 例 中 ， 我 们 使 用 一 种 被 称 为 
“k-means” 的 聚 类 方法 。 这 种 方法 的 处 理 步 又 如 下 所 示 。 

















中 选 定 k 个 初始 聚 类 中 心 点 

@) 计算 各 个 数据 点 和 中 k 个 类 的 中 心 点 的 距离 ， 并 将 每 个 数据 点 
分 类 到 离 它 最 近 的 那个 中 心 点 的 类 中 

(3) 重新 计算 每 个 类 的 中 心 点 

(4 循环 执行 和 (3) 直 至 中 心 点 不 再 发 生变 化 
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Q 选 定 k 个 初始 聚 类 中 心 点 ( 支 ) GO) 将 每 个 数据 点 分 类 到 离 它 最 近 的 

那个 中 心 点 的 类 中 

Ye 二 

G OO. > \ 
. 低 \ 7 O 1 

女 〇 ,大 


4 
1 / 
六 1 \ (7 
、 1 \ 新 
O ES 
~ po 
O ” 





加 循环 执行 @ 和 @ 直 至 中 心 点 不 再 发 生 
变化 





定义 “排名 靠 前 的 用 户 


在 本 例 中 ， 我们 分 析 的 对 象 是 “排名 徘 前 的 用 户 ”， 然 而 这 个 “ 排 
名 靠 前 的 有 用户” 具体 是 指 排 在 前 多 少 位 的 用 户 呢 ?是 指 前 100 名 用 户 ? 
还 是 前 500 名 用 户 ? 还 是 前 20% 的 用 户 呢 ?在 本 例 中 ,我们 试 着 从 数据 
导出 答案 。 

排行 榜 是 由 用 户 的 排行 榜 得 分 来 决定 的 。 我 们 将 用 户 按照 排行 榜 得 
分 由 高 到 低 描绘 在 坐标 轴 上 ， 就 得 到 了 第 3 章 介 绍 的 “ 老 律 分 布 ”。 根 
据 排 行 榜 得 分 的 分 布 ， 可 以 将 用 户 分 为 3 类 : 重度 用 户 、 中 度 用 户 和 轻 
度 用 户 。 其 中 重度 用 户 和 中 度 用 户 一 起 被 定义 为 “排名 徘 前 的 用 户 ”。 


R-CODE 


leeoy 
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那么 如 何 将 用 户 分 成 这 3 类 呢 ?” 可 以 使 用 之 前 介绍 的 k-means 方 
法 ， 将 排行 榜 得 分 作为 变量 ， 把 用 户 分 为 3 个 类 。 





































































































根据 排行 榜 得 分 来 进行 聚 类 限定 重度 或 中 度 的 用 户 类 
用 户 ID | 排行 榜 得 分 |… 用 户 ID | 排行 榜 得 分 | … | 类 
100 100 攻 100 100 轻 度 用 户 ID | 排行 榜 得 分 | … | 类 
300 200 “|… 300 200 轻 度 a a cal We 
i i 3 ee a a 700 10000 Se 重度 
700 10000 “|… 700 | 10000 重度 1000 | 2000 “| … | 中 度 
1000 | 2000 |… 1000 | 2000 中 度 
聚 类 后 我 们 得 到 了 3 个 类 ， 如 下 图 所 示 。 
00 000 类 主 
这 200 000 
:29 中 启用 庄 
100.000 pe 用 ) 
ee 类 1 ( 轻 度 用 户 ) 
爱 > 


在 这 3 个 类 当中 ， 我 们 将 “重度 用 户 ” 和 “中 度 用 户 ” 这 两 类 作为 
分 析 的 对 象 。 





R-CODE 


lea 
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排除 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 


行为 日 志 里 保存 着 用 户 所 有 行为 的 记录 ， 可 能 存在 各 个 行为 之 间 相 
互 影 响 的 情况 。 男 外 ， 由 于 用 户 有 的 行为 并 没有 发 生 ， 因 此 值 为 0 的 行 
为 记录 有 很 多 。 所 以 我 们 实际 上 拿 到 的 数据 并 不 会 像 教 科 书 中 的 数据 那 
样 工 整 。 在 这 种 情况 下 ， 很 有 可 能 无 法 执行 k-means 方法 ， 因 此 我 们 要 
将 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 删除 掉 。 WR-cone 


































































































数值 大 都 为 0 相关 性 较 高 的 变量 


利用 主 成 分 分 析 进 行 正 交 变换 


到 目前 为 止 ， 我 们 将 数值 大 都 为 0 的 变量 和 相关 性 较 高 的 变量 都 删 
除了 ， 并 得 到 了 工整 的 数据 。 然 而 ， 虽 然 删 除了 相关 性 较 高 的 变量 ， 但 
还 是 存在 相关 性 较 弱 的 变量 。 虽 然 此 时 直接 执行 聚 类 方法 也 是 可 行 的 ， 
但 我 们 还 是 希望 目 变 量 能 够 尽量 相互 正 交 。 

于 是 ， 我 们 使 用 主 成 分 分 析 的 方法 变换 得 到 没有 相关 性 的 主 成 分 
值 。 例 如， 如 下 面 的 左 图 所 示 ， 对 于 “参与 战斗 的 次 数 越 多 ， 对 战 敌 方 
首领 的 次 数 也 就 越 多 ”这 样 的 数据 ， 我 们 需要 找 出 能 将 数据 散布 最 大 化 
的 轴线 ， 如 下 面 中 间 的 图 所 示 。 我 们 将 这 根 轴线 作为 第 1 主 成 分 ， 并 将 
和 第 1 主 成 分 正 交 的 轴线 作为 第 2 主 成 分 ， 然 后 旋转 这 两 根 轴线 ， 使 得 
第 1 主 成 分 成 为 模 轴 ， 第 2 主 成 分 成 为 纵 轴 ， 如 下 面 右 边 的 图 所 示 。 这 
样 我 们 就 将 原 数据 变换 成 了 没有 相关 性 的 数据 。 
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数 。 参与 战斗 的 次 数 


8.3 ”把 主 成 分 作为 自 变 量 来 使 用 




















第 2 主 成 分 ”第 1 主 成 分 
对 | 
| w [Jy 
战 4 [OD 
到 | Or 
首 





数 。” 参与 战斗 的 次 数 


主 成 分 分 析 示 意图 





池 当 H 绪 久 溃 


| 175 





对 之 前 获得 的 行为 日 志 数 据 进行 主 成 分 分 析 后 ， 获 得 了 下 面 的 数据 。 


425530 


3.2613 |-0.6329 


-2.12741-0.2657 


—1.8300| 0.4262 





R-CODE 


“(ea 


PC18 “PC19 


“|—1.0741| 0.2789 





776120 


-0.3289| 0.7821 


1.6862 | -0.6565 





276197 


221572 


-0.8029|-0.3686 


-3.5390| 0.2427 


0.1383 |-0.7093 


1.0547 |-0.4889 


-0.9875|-0.3297 


0.1074 | 0.0249 





692433 


—1.3360| 0.2114 


—0.1752| 0.1639 


-0.8298|-0.8614 


























经 过 上 面 的 处 理 ， 我 们 就 获得 了 可 用 于 进行 聚 类 的 数据 。 
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需要 设置 多 少 个 类 


在 得 到 可 用 于 进行 聚 类 的 数据 之 后 ， 我 们 就 可 以 对 数据 进行 聚 类 
了 。 但 在 这 之 前 还 有 一 个 问题 没有 解决 ， 那 就 是 需要 确定 设置 多 少 个 
类 。 虽 说 k-means 是 一 种 非常 方便 的 方法 ， 但 分 析 者 需要 确定 类 的 个 
数 。 在 本 例 中 ， 我们 的 目的 是 要 了 解 《 黑 猫 拼图 》 游 戏 用 户 的 特点 ， 因 
此 如 果 用 户 类 的 个 数 过 多 则 结果 会 难以 解释 ， 也 就 达 不 到 我 们 的 目的 。 
于 是 ， 我 们 首先 和 游戏 策划 的 负责 人 进行 了 沟通 ， 并 确定 了 3 ~ 6 个 用 
户 类 解释 起 来 会 比较 方便 。 

在 确定 了 用 户 类 的 数量 的 范围 后 ， 我 们 会 对 该 范围 内 的 类 个 数 逐 一 
进行 聚 类 ， 最 终 选取 最 合适 的 类 个 数 。 但 是 ， 如 何 确 定 最 合适 的 数量 
呢 ? 方法 有 很 多 ， 此 处 我 们 把 能 使 所 有 类 中 第 1 主 成 分 的 散布 最 小 的 类 
的 个 数 作为 最 合适 的 数量 。 从 结果 来 看 ， 类 个 数 为 5 时 散布 最 小 ， 因 此 
我 们 就 设置 5 个 类 。 R-CODE 


人 
08-10 
类 个 数 We 


ey R-CODE 











第 1 主 成 分 的 散布 


第 1 主 成 分 和 第 2 主 成 分 的 分 布 如 下 图 所 示 。 
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在 雷达 图 上 进行 类 特征 的 可 视 化 


在 能 够 进行 只 类 后 ， 接 着 就 要 人 研究 类 的 特征 了 。 通 常 我 们 只 是 通过 
类 的 一 些 平均 值 来 观察 其 特征 ， 其 实 还 可 以 通过 一 种 叫 作 雷达 图 的 图 形 
来 观察 类 之 间 的 差异 ， 如 下 图 所 示 ， 类 之 间 的 差异 一 目 了 然 。 


®® 
Ww 


“参与 游戏 的 
























a 交 PT 
> 7 OY 浊 2 he -= 
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Se 


被 救援 的 次 数 所 


各 个 用 户 类 的 行为 特征 
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通过 观察 上 图 ， 我 们 发 现 类 3 和 类 5 比较 特殊 。 类 3 和 其 他 类 
相 比 ,“ 救 援 他 人 的 次 数 ” 和 “被 救援 的 次 数 ” 比 较 少 ， 而 “级 别 ” 和 
“参与 游戏 的 次 数 ”的 值 特别 高 。 根 据 这 些 特征 ， 我 们 可 以 认为 类 3 的 
用 户 更 倾 问 于 自力 更 生 。 反 过 来 看 类 $,“ 救 援 他 人 的 次 数 ” 和 “被 救援 
的 次 数 ” 都 很 高 ， 所 以 我 们 认为 这 个 类 的 用 户 经 常 互相 帮助 。 同 样 
地 ， 我 们 可 以 根据 类 的 特征 对 剩 下 的 几 个 类 进行 解释 ， 所 有 类 的 情况 如 
下 所 未。 








1. ( 排名 靠 前 的 用 户 当 中 ) 轻 度 用 户 

=> 和 其 他 类 的 用 户 相 比 所 有 的 属性 值 都 仿 低 

. 经 常 帮助 他 人 的 用 户 1) 

史 救援 他 人 的 次 数 较 多 

. 自力 更 生 的 用 户 

> 救援 和 被 救援 的 次 数 较 少 ， 参 与 游戏 的 次 数 较 多 
. 经 常 帮助 他 人 的 用 户 (2 

只 救援 他 人 的 次 数 较 多 

. 经 常 互 相 帮 助 的 用 户 

> 救援 他 人 和 被 救援 的 次 数 都 很 多 





DD 


CD 


小 


oO] 


分 析 每 个 类 的 KPI 


最 后 我 们 来 计算 每 个 类 的 ARPU 和 平均 访问 天 数 ， 最 后 的 结果 如 下 
表 所 示 。 








R-CODE 


“(eee 


类 ARPU 访问 天 数 
1 


1 1065 20 
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可 以 看 出 ， 类 5 (经 第 互相 帮助 的 用 户 ) 的 ARPU 和 平均 访问 天 数 
相 比 其 他 类 是 最 高 的 ， 类 2 和 类 4 (经 党 帮助 他 人 的 用 户 ) 相 比 于 类 3 
(自力更生 的 用 户 ) 在 这 两 个 指标 上 的 值 也 要 高 ， 由 此 我 们 可 以 得 知 
“是 否 经 常 帮助 他 人 或 被 他 人 帮助 ”这 一 点 非 第 重要 。 为 外 ， 类 1 ( 轻 度 
用 户 ) 的 ARPU 值 非常 高 ， 这 促使 我 们 重新 审视 这 个 类 中 用 户 的 特点 。 
相 比 于 之 前 给 出 的 轻 度 用 户 的 解释 ， 我 们 党 得 这 个 类 的 用 户 更 可 能 是 那 
些 为 了 登 上 排行 榜 顶 端 而 正在 努力 的 用 户 。 
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探讨 促使 用 户 互 相 帮 助 的 策略 

对 排名 靠 前 的 用 户 进行 聚 类 后 ， 我 们 得 到 以 下 结论 。 

e 排名 靠 前 的 用 户 群 体 可 以 分 为 5 个 类 别 

e 经 常 互 相 帮 助 的 用 户 的 KPI 较 高 

基于 上 述 分 析 结果 ， 在 和 游戏 策划 部 门 沟通 之 后 ， 我 们 决定 首先 党 
试 促使 游戏 用 户 之 问 互相 帮助 的 策略 。 


使 市 场 细 分 结果 的 汇报 常态 化 
在 采取 以 促使 用 户 行为 变化 为 目标 的 策略 时 ， 基 于 用 户 行为 的 市 声 




















细 分 也 可 以 用 来 确认 该 党 略 是 否 有 效 。 在 本 例 中 ， 我 们 采取 了 促使 游戏 
用 户 互 相 帮 助 的 案 略 ， 而 实际 上 互相 帮助 的 用 户 是 否 有 所 增加 ， 我 们 可 
以 通过 市 场 细 分 来 定量 地 确认 。 

因此 ， 我 们 将 之 前 的 分 析 设 置 为 每 天 自动 执行 ,并 将 分 析 结 下 以 邮 
件 的 方式 发 送 给 相关 负责 人 。 基 于 这 种 反 饿 ， 形 成 “策略 商讨 一 执行 一 
改善 ”这 样 一 套 完 整 的 流程 。 
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小 结 





在 本 章 中 ， 我 们 对 数据 进行 了 聚 类 分 析 。 由 于 真正 的 商业 数据 并 不 
是 像 教科 书 中 的 数据 那样 工整 ， 因 此 我 们 在 实际 进行 分 析 之 前 需要 对 数 
据 进行 前 期 的 处 理 。 在 本 例 中 ， 我 们 把 没有 什么 信息 量 的 变量 和 相关 性 
较 高 的 变量 过 滤 掉 ， 并 使 用 主 成 分 分 析 进 行 正 交 变 换 完 成 了 前 期 的 数据 
处 理 。 

最 终 我 们 基于 用 户 的 行为 模式 将 用 户 分 成 5 个 类 别 ， 明 确 了 用 户 的 
特点 。 万 外 ,为 了 将 PDCA (重复 执行 计划 《Plan ) 一 实施 (Do) 一 评 
价 〈Check ) 一 改善 (Art) 这 4 步 的 商业 验证 循环 ) 付 诸 实施 ， 我 们 将 
本 例 中 的 分 析 设 置 成 日 动 执 行 ， 并 稳定 地 发 送 邮 件 息 报 ， 形 成 了 “ 案 略 
商讨 一 执行 一 改善 ”这样 一 套 完整 的 流程 。 

分 析 流 程 第 8 章 中 数据 分 析 的 成 本 


发 现 问 题 














数据 的 收集 和 加 工 
数据 分 析 
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:区 人 详细 的 愉 代 三 








生成 用 于 读 入 数据 的 函数 
首先 ， 生 成 用 于 获取 指定 日 期 数据 的 函数 。 
R-CODE 


08-01 
library (plyr) be ou 


library (foreach) 


readTsvDates <- function(base.dir, app.name, date.from, date.to) { 
date.from <- as.Date (date.from) 
date.to <- as.Date (date.to) 
dates <- segq.Date(date.from, date.to, by = "day") 
x <- ldply(foreach(day = dates, combine = rbind) %do% { 
read.csv (sprintf ("$s/$s/%s/data.tsv'", base.dir, app.name, day), 
header = TT, 
Se mu ee eers eels 





然后 ， 生 成 用 于 获取 其 他 各 个 数据 的 专用 函数 。 这 样 做 的 好 处 在 
于 ， 可 以 提高 数据 的 可 读 性 ， 而 且 万 一 获取 数据 的 路 径 发 生 了 变动 ， 也 


只 需 修改 相应 的 函数 即 可 。 
R-CODE 


08-02 
# 读 入 DAU 数 据 的 函数 30% 


readDau <- function(app.name, date.from, date.to = date.from) { 
data <- readTsvDates ("sample-data/section8/daily/dau", app. 
name, date.from, date.to) 
data 
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# 读 入 DPU 数 据 的 函数 

readDpu <- function(app.name, date.from, date.to = date.from) { 
data <- readTsvDates ("sample-data/section8/daily/dpu", app. 
name, date.from, date.to) 
data 


# 读 入 行为 数据 的 函数 

readActionDaily <- function(app.name, date.from, date.to = date. 
FPOm el 
data <- readTsvDates ("sample-data/section8/daily/action", app. 
name, date.from, date.to) 
data 


# DAU 

dau <- readDau ("game-01"™, "m2013-05-01"™, "2013-10-31") 
head (dau) 

# DPU 

dpu <- readDpu("game-01"™, "m2013-05-01"™, "m2013-10-31") 
head (dpu) 

Aceon 

user.action <- readActionDaily ("game-01", "2013-10-31"， "2013-10- 
Sul 

head (user.action) 





@ DAU 
## log date app name user id 
六 二 2013-05-01 game-01 608801 


2013-05-01 game-01 712453 
2013-05-01 game-01 776853 


2013-05-01 game-01 113600 
2013-05-01 game-01 452478 


1 
2 
3 
## 4 2013-05-01 game-01 823486 
5 
6 
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@ DPU 

| ### log date app name user id payment 
; #1 2013-05-01 game-01 804005 2 | 
; ## 2 2013-05-01 game-01 793537 81 
; #3 2013-05-01 game-01 317717 81 | 
; #4 2013-05-01 game-01 317717 81 
; ## 5 2013-05-01 game-01 426525 324 ' 
; ## 6 2013-05-01 game-01 540544 243 
@ Action 

## l0og date app name user id Al A2 A3 R4 A5 A6 A7 i A51 A52 A53 A54 
; 杰 工 2013-10-31 game-01 654133 0 0 0 0 0 0 0 0 0 046 | 
; 拉 2 2013-10-31 game-01 425530 0 0 0 010 1233 …… 不 
; 拉 3 2013-10-31 game-01 709596 0 0 0 0 0 0 0 VW 
; 机 42013-10-31 game-01 525047 0 2 0 0 9 0 0 0 0 0109 | 
; 朱 52013-10-31 game-01 796908 0 0 0 0 0 0 0 0 0 064 | 


将 DAU 和 DPU 合并 


# 合并 消费 额 数据 
dau2 mergeldou au logrgare user dd epeavmeneG el 
oa Se 





# 添加 消费 额 标志 位 
Qau2omsepaymsnme < Tielsells naldau 2 pavmente 0 9 1 
head (dau2) 


# 将 无 消费 记录 的 消费 额 设 为 0 


dau2$payment <- ifelse(is.na(ldau2$payment), 0, dau2$payment) 
head (dau2) 
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## log date user id app name payment is.payment I 
## 1 2013-05-01 1141 game-01 NA 0 
## 2 2013-05-01 1689 game-01 NA 0 
## 3 2013-05-01 2218 game-01 NA 0 
## 4 2013-05-01 3814 game-01 NA 0 
## 5 2013-05-01 3816 game-01 NA 0 
## 6 2013-05-01 4602 game-01 NA 0 








全 局 吕 全 唱 表示 崩 价 
au2slooanonenE soseiagaw2liecgqnaqae 1 7 


# 按 月 统计 
mu dp (dau2 ooganmonc user od umarLzes 


payment = sum(payment),access days = length (log date)) 


head (mau) 


## 1 2013-05 65 0 1 | 
## 2 2013-05 115 0 1 
## 3 2013-05 194 0 1 
## 4 2013-05 426 0 4 
## 5 2013-05 539 0 1 
## 6 2013-05 654 0 1 
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确定 排名 的 沁 围 





k-means 方法 可 以 通过 kmeans 函数 来 执行 ， 但 该 方法 的 缺点 是 结 
果 不 稳定 。ykmeans 程序 包 中 的 ykmeans 图 数 ， 在 内 部 将 kmeans 困 数 
执行 了 100 次 ， 因 此 能 够 获得 稳定 的 结果 。 


R-CODE 


library (ykmeans) 08-06 


library (ggplot2) 
library (scales) 


# A47 为 排行 榜 得 


Waele ey AATY, VAZ4TW, BS) 
每 个 类 的 人 数 


table(user.action2scluster) 


## 1 2 3 
## 2096 479 78 


排行 榜 得 分 的 分 布 





# 排行 榜 得 分 的 分 布 
ggplot (arrange (user.action2, desc (A47)), 
aes 1 lengthuser yg A 
Col = as.factor (cluster), shape = as.factor (cluster))) + 
gecm le 
xlab ("user") + 
ylab ("Ranking point") + 
sealery continuous (label commaet 
ggtitle("Ranking Point") + 
theme (legend.position = "none') 
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500,000— 


400.000- 


imt 


300.000— 





Ranking po 


200.000- | 


0-— 

















1 1 
0 1000 2000 
USer 


限定 排名 靠 表 的 用 户 








user.action.h <- user.action2[user.action2scluster >= 2, 
names (user.action)] 


进行 主 成 分 分 析 





# 用 于 机 器 学 习 的 库 
# 利用 库 中 包含 的 函数 进行 数据 的 前 期 处 理 


library (caret) 


VSP AGELON,E 去 二 VBL aCGELOm. Ml, =@(1s4)] 
Wom eames lu r aceon User aceron hn vsereard 
head (user.action.f) 


# 删除 那些 信息 量 小 的 变量 
nzVv <- nearZeroVar (user.action.f) 
USE eionm ee en eonna | 


# 删除 那些 相关 性 高 的 变量 
vser naomi eo Use eon Emer 
ae one aor ionl( sn oo uo 
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USer 人 1G filter <- USer. actlion.£ .£1ilEerol|, -milionly. Cor.£] 

# 进行 主 成 分 分 析 

# pca 

user.action.pca.base <- prcomp (user.action.f.filterd, scale = TT) 
user.action.pca.bases$srotation 


进行 聚 类 
这 里 我 们 使 用 ykmeans 函数 来 执行 k-means 方法 。 可 以 将 类 的 个 数 
以 回 量 的 形式 传 给 ykmeans 子 数 ， 陈 数 会 对 每 个 类 的 个 数 执行 一 次 
kmeans 聚 类 ， 最 后 将 平均 散布 最 小 的 类 的 个 数 作为 聚 类 的 结果 返回 。 





user.action.pca <- data.frame (user.action.pca.bases$x) 
keys <- names (user.action.pca) 


user.action.km <- ykmeans (user.action.pca, keys, "PC1", 3:6) 
table(user.action.km$scluster) 


## 1 2 3 4 5 
## 23 230 59 195 50 


R-CODE 
goplot (user sactron km, \08-11/ 
acs\(x=PCLT, y=PC27Ccol=as factor(cluster)r shape=as. factor (clusSter))) + 


geom Point () 
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4- 和 加 
中 加 
二 委 由 加 国 
全 到 二 中 加 回 
志和 起 二 十 中 加 回回 加 
加 
信和 9 4 有 和 二 说 直 基 村 二 外 回 二 一 
少 如 a 中 下 时 名 日 
pF 2 A + 者 蝗 9 加 
人 
0- 了 二 了 人 村 本 = -一 加 田 台 as.factor(cluster) 
本 a a + 十 古寺 性 日 9 1 
到 < 二 于 
a 闪 mm 十 十 十 十 十 本 
CN 和 要 冬至 i 生平 十 直 2 
OO 如 二 
D_ A 四 日 图 ee 1 回 加 m3 
m 四 昌 了 5 十 四 
加 
- 和 et + 4 
— nm 3 四 5 
-了 44- 本 -一 一 
加 瑟 
-387 | | 1 
0 
PC1 


k-means 聚 类 的 结果 


计算 每 个 类 的 平均 值 


user.action.f.filterdscluster <- user.action.kmscluster 





user.action.f.center <- 
ldply (lapply (sort (unique (user.action.f.filterd$scluster)), 
Funeelom( 


x Useractiomfftilterdlvuser actiom rE FlterdSelvster = 
-eo se en 
apply (x, 2, function(d) mean(d)) 





library (fmsb) 

# 对 雷达 图 所 需 的 数据 进行 整理 的 函数 

createRadarChartDataFrame <- function(df) { 
gf adam in 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


190 | 第 8 章 应 该 选择 什么 样 的 目标 用 户 群 


dfmax <- apply(df, 2, max) + 1 
dfmin <- apply(df, 2, min) - 1 
as.data.frame (rbind (dfmax, dfmin, df)) 


| 


# 排除 相关 性 较 高 的 变量 
eisenae iene (mole on en EN 国明 
dimeeormn een 
ol ,niemnly. Cor <= lnCorrelatlon(or .Gor, CUEOEE = 0.91) 

# 手动 调整 使 得 数据 易于 解释 
GE ,£1ltere <- AE[, = ,nile ly CoOEIl 


# 生成 雷达 图 所 需 的 数据 
df .filterd <- createRadarChartDataFrame (scale (df.filterd)) 
names (df .filterd) 


ee ti ed in ed J ein, ed ,eh ie Tied i dl el ie ed et tiie Wied nl, od" jel" i Sein, eed 1h i Vid cd nd” tt a nel et sind int, pd, od: Piel" nn, aie, etl, i ih ed de ed” eed a Pn, fet ait sind int, ed ed: Pl" Tin, Jn, ,ee eed ad, ed pic id" pend, a J, el eit Wiad tint, eed ed tetd" n,n, ay, Se tine tinh ed pi? dp, ca a et ee iad ed ed el 


井 ## | 1 | 1A2 I nAT1" nAT3" nA43" nAA447" nAD1T'" 


) YN NE Eg 


曾 过 其 他 表格 进行 确认 后 ， 得 到 了 下 面 的 表格 ， 因 此 这 里 重新 填 上 





A13 





救援 他 人 的 | 被 救援 的 | 对 战 敌 方 首领 的 | 参与 战斗 的 | 参与 游戏 的 
次 数 次 数 次 数 次 数 次 数 


R-CODE 





names (df .filterd) <- cf(" 级 别 "，" 救 援 他 人 的 次 数 "， "被 救援 的 次 数 "， 
"对 战 敌 方 首领 的 次 数 "， "参与 战斗 的 次 数 "， "参与 游戏 的 次 数 ") 








三 已 上 
男 出 雷达 图 

R-CODE 
library (sysfonts) \08-15/ 
library (showtext) 


# 雷 达 图 中 显示 中 文 需要 先导 入 字体 
radarchart (af .filterdq，seg = 5, plty = 1:5, plwd = 4, pcol = rainbow(5)) 
cere ee ntl Sern pel ows es 


※ 在 中 文系 统 中 ， 为 了 在 生成 的 雷达 图 中 显示 中 文 ， 请 先 执 行 1ibrary (sysfonts) 


和 1ibrary (showtext) 命令 。 
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J i a Ee 人 2 会 上 NS 、 
救援 他 人 的 次 数 : 、、…、。、 参与 游戏 的 





被 救援 的 次 数 eS A | A 参与 战斗 的 次 数 
-~~、 Se 


对 战 敌 方 普 令 的 次 数 


各 个 用 户 类 别 的 行为 特征 


e@ 针对 各 个 用 户 类 的 解释 
1.( 排名 靠 前 的 用 户 当中 ) 轻 度 用 户 

祖 和 其 他 类 的 用 户 相 比 所 有 的 属性 值 都 偏 低 
2. 经 常 帮助 他 人 的 用 户 d) 

> 救援 他 人 的 次 数 较 多 
3. 自力 更 生 的 用 户 

> 救援 和 被 救援 的 次 数 较 少 ， 参 与 游戏 的 次 数 较 多 
4. 经 常 帮助 他 人 的 用 户 (2) 

> 救援 他 人 的 次 数 较 多 
5. 经 常 互 相 帮 助 的 用 户 

> 救援 他 人 和 被 救援 的 次 数 都 很 多 





图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


192 | 第 8 章 应 该 选择 什么 样 的 目标 用 户 群 


计算 每 个 类 的 KPI 








EEC rera uss ng . 
as.numeric (rownames (user.action.f.filterd)) 
User aceion ko "mergel(veser acelon fe Futerd mu by uoero rar) 


ddply (user.action.kpi, . (cluster), summarize, 
arpu = round (mean (payment)), 
access days = round (mean(access days))) 


Pe 


## cluster arpu access days 


: #1 1 1065 20 
二 2 259 24 
请 38 14 
: ## 4 4 146 26 | 
; 失 5 5 1543 28 
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有: 


第 9 章 
案例 @ 一 决策 树 分 析 


具有 哪些 行为 的 用 户 会 吓 
长 期 用 户 


弄 清 长 期 参与 社交 游戏 用 户 的 行为 特征 

现在 《 黑 猫 拼图 》 游 戏 的 运营 状态 良好 ， 但 是 相 比 其 他 应 用 ， 
( 黑 猫 拼图 》 的 很 多 用 户 在 开始 游戏 后 不 久 就 离开 了 。 为 了 改 
善 这 种 情况 ， 我 们 进行 了 探讨 ， 希 望 通过 数据 分 析 弄 清楚 在 
开始 游戏 后 用 户 什么 样 的 行为 会 促使 该 用 户 今后 也 能 持续 来 
访 ， 从 而 为 改善 现 有 的 游戏 策划 方案 提供 参考 ， 那 么 我 们 该 
怎么 做 呢 ? 
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为 图 行 望 减 少 用 亡 开 始 洲 戏 
后 不 久 就 离开 的 情况 





| a 


日 前 《 黑 狂 拼图》 游戏 运营 情况 良好 ,已 经 是 公司 稳定 的 收益 来 
源 。 这 球 游 戏 虽然 没有 什么 和 收益 相关 的 大 问题 ,但 还 是 存在 几 处 令 人 
担心 的 地 方 。 其 中 用 户 开 始 游 戏 后 不 久 就 离开 的 和 情况， 在 这 于 游戏 中 要 
比 其 他 应 用 严重 得 多 。 由 于 这 球 游戏 在 传统 媒体 上 投放 了 大 量 的 广告 ， 
并 且 比 其 他 应 用 的 用 户 规模 都 要 大 ， 因 此 不 仅 是 核心 用 户 群 ， 轻 度 用 户 
群 的 人 数 也 比 其 他 应 用 多 ， 这 有 可 能 是 导致 这 一 问题 的 原因 之 一 。 尽 管 
如 此 ， 既 然 我 们 好 不 容易 让 用 户 开 始 了 游戏 ， 那 么 就 布 望 他 们 能 够 成 为 
洲 戏 的 长 期 用 户 ， 这 也 是 洲 戏 的 保 划 和 和 运 俏 部 门 所 布 望 的 。 

因此 ， 我 们 需要 灵活 运用 数据 分 析 ， 制 定 出 合理 的 运 党 全 上 略 来 尽量 
留 住 用 户 。 当 前 我 们 面临 的 现状 是 “开始 游戏 后 不 久 便 离 开 的 用 户 较 
多 ”， 而 我 们 的 预期 是 “开始 游戏 后 不 久 便 离开 的 用 户 很 少 ”。 

预期 
开始 游戏 后 


不 久 便 离开 的 
用 户 很 少 
































第 9 章 的 现状 和 预期 
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了 解 乐 却 的 结构 





与 其 探 完 用 户 离 开 的 原因 ， 不 如 寻找 用 户 继 续 访 问 的 理由 
在 本 例 中 ,我 们 不 是 要 解决 一 个 显而易见 的 问题 ， 而 是 希望 通过 灵 











活 运 用 数据 分 析 来 给 用 户 提供 更 好 的 服务 。《 黑 猫 拼图 》 游 戏 和 其 他 应 
用 相 比 ， 服 务 的 规模 较 大 ， 并 且 在 传统 媒体 上 投放 了 广告 ， 因 此 轻 度 用 
户 群 的 数量 舍 计 也 很 多 。 跟 核心 用 户 相 比 ， 轻 度 用 户 对 游戏 不 太 上 心 ， 
所 以 通常 这 些 用 户 继续 游戏 的 可 能 性 也 不 太 高 。 因 此 ， 即 使 我 们 调查 分 
析 了 用 户 离开 的 主要 原因 ， 仍 有 可 能 得 不 到 什么 有 用 的 信息 。 于 是 ， 与 
其 去 探究 用 户 离 开 的 原因 ， 不 如 从 那些 长 期 访问 游戏 的 用 户 的 行为 入 
手 ， 去 寻找 用 户 继续 访问 游戏 的 理由 。 继 续 访 问 游戏 的 用 户 应 该 是 由 于 
某 些 原因 在 游戏 的 过 程 中 体会 到 了 游戏 的 “乐趣 ”， 所 以 我 们 需要 通过 
数据 分 析 的 方式 来 找 出 这 些 原因 ， 进 而 探讨 能 够 将 这 种 “乐趣 ”更 好 地 
传递 给 用 户 的 案 划 方案 。 














人 分解“ 乐趣 ”的 要 素 


下 面 我 们 来 考察 一 下 为 什么 那些 游戏 的 长 期 用 户 能 够 体会 到 游戏 的 
“乐趣 ”。 由 于 每 个 人 对 于 “乐趣 ”的 看 法 可 能 部 不 一 样 ， 因 此 光 说 “ 乐 
趣 ” 还 不 行 ， 我 们 需要 对 《 墨 猫 拼图 》 洲 戏 的 “乐趣 ”进行 定义 ， 并 根 
据 这 个 定义 来 做 进一步 的 考量 。 因 此 ， 让 我 们 首先 从 分 解 这 种 “乐趣 ” 
的 构成 要 素 人 手 。 
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《 黑 猫 拼图》 游戏 的 用 户 在 初期 能 够 进行 的 行为 大 体 分 为 下 面 3 
个 ， 因 此 我 们 认为 《 墨 猫 拼图 》 洲 戏 初 期 的 “乐趣 ”就 是 由 这 3 个 要 系 
构成 的 。 


e@ 战斗 : 对 战 其 他 用 户 
e@e 协作 : 和 其 他 用 户 协 作 共 同 打败 敌 方 首领 
e@ 发 送 消息 : 向 其 他 用 户 发 送 消息 


我 们 将 上 面 的 行为 称 为 “社交 行为 "， 游 戏 用 户 的 这 些 行为 会 相互 
影响 。 在 社交 游戏 当中 ， 这 些 社交 行为 要 系 有 很 多 ， 它 们 让 用 户 切 实感 
党 到 其 他 用 户 的 存在 ， 并 促使 用 户 继续 访问 游戏 。 

如 上 所 述 ， 我 们 将 “乐趣 ”这 类 模糊 的 说 法 分 解 成 具体 的 行为 和 功 
能 ， 从 而 使 得 针对 具体 分 析 和 策略 的 讨论 成 为 可 能 。 











量化 “社交 行为 " 
下 面 我 们 从 数据 分 析 的 角度 来 看 上 述 3 种 社交 行为 。 





通过 初步 观察 数据 ， 我 们 发 现 流失 的 用 户 大 神 是 在 开始 游戏 后 的 1 
周 内 就 不 再 来 访 了 ， 因 此 我 们 可 以 设立 假设 : 用 户 是 否 会 长 期 来 访 游 戏 
取决 于 用 户 在 开始 游戏 后 的 1 周 内 的 行为 。 接 春 我 们 台 要 思考 如 何 用 数 
值 来 量化 上 述 社交 行为 。 首 先 应当 想 到 的 就 是 这 些 社交 行为 在 用 户 开 始 
游戏 后 的 1 周 内 发 生 了 多 少 次 。 通 过 这 些 数值 的 大 小 ， 束 可 以 得 知 用 户 
从 《下 猫 拼图 》 游 戏 中 寻求 的 “乐趣 ”。 











e@ 战斗 次 数 很 多 的 情况 : 喜欢 在 游戏 中 对 战 其 他 用 户 

e@ 协作 次 数 很 多 的 情况 : 喜欢 在 游戏 中 通过 和 其 他 用 户 协 作 击 败 敌 
方 首 领 

e@ 发 送 消息 次 数 很 多 的 情况 : 喜欢 和 游戏 中 的 其 他 用 户 交 流 





当 我 们 明确 了 大 多 数 用 户 的 需求 后 ， 就 可 以 制定 针对 性 更 强 的 洲 戏 
运 侣 策略， 从 而 促使 更 多 的 用 户 长 期 来 访问 我 们 的 游戏 。 
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接着 我 们 需要 考虑 各 个 社交 行为 是 在 用 户 开 始 游 戏 几 天 后 首次 发 生 
的 ， 根 据 这 些 数值 就 可 以 得 知 各 个 社交 行为 的 下 述 情况 。 

e@ 用 户 从 第 1 天 起 就 发 生 这 种 社交 行为 好 吗 

e@ 用 户 在 开始 游戏 几 天 后 再 发 生 这 种 社交 行为 好 吗 





例如 ， 对 战 其 他 用 户 和 与 其 他 用 户 协作 共同 打败 敌 方 首领 的 社交 行 
为 一 开始 就 有 会 比较 好 ， 而 从 开始 游戏 第 1 天 起 就 给 其 他 用 户 发 送 消息 
就 不 太 好 。 

整理 一 下 上 面 的 内 容 ， 如 下 表 所 示 。 

社交 行为 几 天 后 发 生 发 生 几 次 








想 在 游戏 中 与 他 人 对 战 
想 在 游戏 中 和 他 人 协作 


想 和 同伴 交流 














是 否 能 将 分 析 结 果 与 游戏 荣 划 相 结合 


我 们 拿 厦 上 面 的 表格 和 游戏 的 策划 部 门 进行 了 沟通 ,对方 的 意见 是 
如 末 我 们 能 够 知道 这 些 要 系 中 哪 种 要 素 能 获得 更 好 的 效果 ， 那 么 驶 能 够 








结合 该 要 系 来 实施 相应 的 策划 方案 。 因 此 ， 我 们 的 任务 网 是 根据 上 表 的 
内 容 ， 分 析 得 出 具有 什么 样 行为 的 用 户 更 容易 长 期 访问 游戏 。 








图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


198 | 第 9 章 具有 哪些 行为 的 用 户 会 是 长 期 用 户 


加 把 类 作为 目 变 量 





讨论 如 何 量化 “稳定 来 访 
我 们 整理 了 一 下 前 面谈 到 的 事实 和 假设 ， 并 得 到 下 面 的 处 理 流程 。 








1. 开始 游戏 后 1 周 内 用 户 的 稳定 来 访 率 比 较 低 ( 事实 ) 
2. 根据 初次 访问 游戏 时 用 户 行为 的 不 同 ， 其 稳定 来 访 率 也 不 一 样 
( 战斗 ? 协作 ? 发 送 消息 ? ) x ( 次 数 ? 时 间 段 ? ) ( 假设 ) 
3. 分 析 的 结果 是 OO 的 行为 模式 比较 容易 促使 用 户 稳 定 来 访 游戏 
( 假设 ) 


4. 为 了 使 得 用 户 养 成 OO 〇 的 行为 模式 ， 需 要 实施 x x ( 解决 方案 ) 


根据 上 述 处 理 流程 ， 在 本 例 中 ， 如 果 我 们 可 以 通过 数据 分 析 找 出 
“战斗 ” “协作 ”和 “发 送 消 息 ” 这 些 社交 行为 和 “稳定 来 访 ”之 间 的 天 
系 ， 那 么 之 前 不 确定 的 问题 就 会 日 然 地 明确 了 。 在 分 析 对 象 中 ， 社 交行 
为 是 很 容易 被 量化 的 ， 而 “稳定 来 访 ” 却 很 难 量化 。 因 此 ， 我 们 首先 需 
要 考虑 如 何 量化 “稳定 来 访 ”。 

我 们 考虑 了 多 种 量化 “稳定 来 访 ” 的 方法 。 例 如 在 社交 游戏 中 ,，“N 
日 持续 率 ” 就 是 一 种 第 用 的 指标 。 

















N 日 持续 率 = 初次 来 访 游戏 N 天 后 再 次 来 访 的 用 户 数 / 初次 来 访 游 
戏 的 用 户 数 





这 个 指标 适用 于 宏观 倾向 的 把 握 ， 而 在 本 例 中 ， 我 们 需要 的 并 非 整 
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体 的 倾 回 ， 而 是 希望 发 气 和 社交 行为 之 间 的 关系 ， 因 此 需要 将 每 个 用 户 
稳定 来 访 的 情况 进行 量化 。 很 显然 ，N 日 持续 率 无 法 计算 每 个 用 户 的 情 
况 ， 因 此 这 个 指标 不 适用 于 本 例 。 

于 是 ， 本 例 中 我 们 考虑 使 用 “登录 密度 ”， 通 过 这 个 指标 可 以 计算 
登 个 川 户 的 情 灿 6 











N 日 登录 密度 =N 日 内 用 户 到 访 的 天 数 /N 


从 上 述 定义 可 以 得 知 ，N 日 登录 密度 的 取 值 范围 在 0 到 1 之 间 ， 越 
接近 1 表示 该 用 户 越 可 能 是 稳定 来 访 的 用 户 。 在 分 析 中 ， 我 们 将 用 户 开 
始 游 戏 后 1 周 内 (第 0 天 ~ 第 6 天 ) 的 行为 作为 日 变量 ， 而 作为 因 变 量 
的 登录 密度 则 由 下 一 周 (第 7 天 ~ 第 13 天 ) 的 数据 得 到 。 

















找 出 决策 树 分 析 中 影响 最 大 的 分 袭 属性 
在 完成 了 对 “稳定 来 访 ” 的 量化 后 ， 我 们 来 讨论 一 下 分 析 方法 。 像 











本 例 这 样 考察 多 个 属性 的 影响 时 ， 通常 的 处 理 方法 是 对 每 一 个 属性 进行 
交叉 列表 统计 。 但 是 仔细 想 想 ， 调 查 多 个 属性 组 合 所 产生 的 影响 ， 也 就 
是 找 出 下 面 这 样 的 一 些 模式 。 








e@ 从 不 主动 对 战 其 他 用 户 ， 但 协助 他 人 超过 30 次 的 用 户 会 稳定 


来 访 
@ 第 3 天 之 后 发 送 了 5 条 以 上 的 消息 ， 并 在 第 7 天 协助 他 人 2 次 以 
上 的 用 户 群 会 稳定 来 访 


如 宁 像 这 样 将 各 种 社交 行为 的 次 数 和 发 生 天 数 进行 组 合 ， 那 么 我 们 
需要 进行 大 量 的 交叉 列表 统计 ， 这 个 计算 量 是 日 前 我 们 无 法 承受 的 。 在 
这 种 情况 下 ， 一 种 便利 的 分 析 方 法 是 使 用 决策 树 。 

决 宁 树 分 析 在 商业 数据 分 析 中 是 一 种 使 用 广泛 且 便 利 的 分 析 方 法 ， 
其 中 一 种 用 法 是 找 出 影响 最 大 的 分 裂 属性 。 该 分 裂 属性 在 交叉 列表 统计 
中 需要 将 所 有 的 组 合 都 测试 一 过 才 有 可 能 找到 。 所 以 下 面 我 们 将 使 用 次 
策 树 分 析 。 
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决策 树 分 析 


最 上 面 的 分 有 裂 属性 
影响 最 大 


B5 


利用 交叉 列表 统计 来 寻找 分 裂 属性 





ee 
Dm 











es 分 裂 后 最 有 效 的 属性 
通过 交叉 列表 统计 找到 差 最 大 的 属 作为 下 一 个 节点 
性 来 将 A5/B5 分 开 ， 再 去 寻找 其 他 





属性 进一步 分 解 


A5 B5 A5 


XO YO XS YS 2 











mA 
B5 





交 义 列表 统计 和 决策 树 分 析 的 比较 


Ed ME: 
在 确定 分 析 方法 之 后 ， 我 们 就 需要 着 手 准备 所 需 的 数据 ， 但 在 这 之 








前 我 们 再 稍微 讨论 一 下 如 何 量化 社交 行为 的 问题 。 目 前 我 们 考量 的 数量 
是 各 种 社交 行为 发 生 的 次 数 以 及 这 些 行为 发 生 在 多 少 天 后 。 也 就 是 说 ， 
我 们 在 探寻 下 面 这 些 模式 。 


@ A 天 后 和 其 他 用 户 对 战 了 B 次 

e C 天 后 和 他 人 协作 了 D 次 

eE 天 后 发 送 了 FF 次 消息 

然而 ,我 们 讨论 的 社交 行为 模式 难道 仅 限 于 上 面 这 样 单纯 的 实数 
四? 例如 ， 即 使 实际 次 数 有 差异 ， 如 果 从 开始 使 用 的 1 周 内 各 种 行为 发 
生 的 时 间 点 相近 ， 我 们 不 也 可 以 将 其 视 为 一 类 行为 模式 吗 ? 

因此 ， 让 我 们 根据 每 天 的 访问 次 数 占 7 日 内 的 访问 总 次 数 的 比 
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率 ， 来 讨论 行为 模式 。 根 据 该 比率 ,我们 可 以 得 知 用 户 7 日 内 的 下 述 
情况 。 


e 在 前 半 段 时 间 内 有 较 多 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 
e 在 后 半 段 时 间 内 有 较 多 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 
e 7 天 内 都 有 行为 的 用 户 的 稳定 到 访 率 是 否 较 高 


最 后 ， 我 们 还 可 以 考虑 使 用 第 8 章 中 介绍 的 主 成 分 分 析 来 计算 得 到 
基于 主 成 分 的 模式 。 当 各 种 社交 行为 相互 影响 ， 或 者 没有 什么 行为 的 用 
户 较 多 的 情况 下 ， 使 用 独立 的 主 成 分 能 得 到 更 好 的 分 离 。 

下 面 我 们 就 用 上 述 3 种 分 析 属 性 来 对 社交 行为 和 用 户 的 稳定 来 访 的 
关系 进行 分 析 。 




















将 类 作为 目 变 量 来 使 用 
我 们 来 整理 一 下 目前 为 止 的 流程 ， 现 有 的 数据 如 下 。 


e@ 行为 的 种 类 : 战斗 、 协 作 、 发 送 消息 
e@ 时 间 和 次 数 : 7 日 内 菏 个 行为 在 什么 时 候 发 生 了 几 次 


针对 这 些 数据 ， 我 们 从 下 述 3 个 分 析 属 性 来 着 手 进 行 分 析 。 


@ 实数 
@ 比率 
@ 主 成 分 


如 果 把 这 些 都 放 到 一 起 来 分 析 ， 得 出 的 结果 很 可 能 难以 解释 。 因 
此 ， 我 们 需要 首先 弄 清楚 用 哪个 分 析 属 性 分 析 哪 种 社交 行为 最 能 说 明 
稳定 到 访 率 ， 并 在 这 一 过 程 中 确认 哪 种 行为 模式 容易 促使 用 户 稳定 
来 访 。 

因此 ， 首 先 我 们 需要 将 社交 行为 和 分 析 属 性 组 合成 一 个 新 的 日 


时 


里 o 











六 
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e 新 的 自 变量 1: 社交 行为 = 战斗 、 分 析 属 性 = 实数 
e 新 的 自 变 量 2: 社交 行为 = 战斗 、 分 析 属 性 = 比率 
e 新 的 自 变 量 3: 社交 行为 = 战斗 、 分 析 属 性 = 主 成 分 








使 用 这 个 新 的 自 变 量 进 行 决策 树 分 析 ， 我 们 就 能 够 找 出 对 稳定 到 访 
率 影 响 最 大 的 社交 行为 和 分 析 属 性 的 组 合 。 组 合成 一 个 新 变量 的 方法 有 
很 多 ， 在 本 例 中 ， 将 有 类 似 行 为 的 用 户 归 到 一 起 会 比较 好 ， 因 此 可 以 使 
用 聚 类 的 方法 。 这 里 我 们 使 用 第 8 章 介 绍 过 的 k-means 方法 。 








四 通过 各 种 行为 x 分 析 属性 进行 聚 类 











































































































用 户 ID | Action | 分 析 属 性 | 第 0 天 | 第 1 天 i 第 6 天 用 户 ID 类 的 种 类 类 
300 battle | 实数 300 battle_ 实数 1 
用 户 ID | Action | 分 析 属 性 | 第 0 天 | 第 1 天 i 第 6 天 用 户 ID 类 的 种 类 类 
300 battle 比率 i 300 battle_ 比率 也 
用 户 ID | Action | 分 析 属 性 | PC1 PC2 ，…， PC7 用 户 ID 类 的 种 类 类 
300 battle | 主 成 分 人 300 battle_ 主 成 分 3 





























ED 将 类 作为 自 变量 





用 户 ID 类 的 种 类 类 
300 battle_ 实数 


二 
































用 户 ID 类 的 种 类 类 用 户 ID battle_ 实数 | battle_ 比 率 |battle_ 主 成 分 
300 battle_ 比 率 2 300 1 2 3 

用 户 ID 类 的 种 类 类 

300 battle_ 主 成 分 3 
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(3) 进行 决策 树 分 析 ， 并 调查 最 有 效 的 类 的 种 类 中 每 个 类 的 倾向 











battle_ 比 率 六 1 
一 
A=] 
过 二 
Qo 
tw 
OO 





经 过 的 天 数 


在 本 例 的 数据 生成 过 程 中 ， 我 们 使 用 了 第 8 章 中 介绍 的 主 成 分 分 析 








和 k-means 等 分 析 方 法 。 在 商业 数据 分 析 领 域 ， 为 了 使 用 某 种 数据 分 析 
方法 ,通常 可 以 使 用 别 的 方法 来 进行 数据 加 工 。 和 需要 特别 提 到 的 是 主 成 
分 分 析 ， 当 目 变 量 之 间 不 是 相互 独立 时 ， 它 能 够 将 日 变量 变换 成 独立 的 
成 分 。 或 者 在 自 变 量 太 多 的 情况 下 ， 为 了 降 维 也 可 以 使 用 该 方法 。 总 
之 ， 主 成 分 分 析 是 一 种 经 党 使 用 的 辅助 性 的 分 析 方 法 。 


数据 收集 


下 面 我 们 来 讨论 一 下 进行 决策 树 分 析 所 需要 的 数据 。 首 先 ， 为 了 调 
查 用 户 开 始 游 戏 后 第 1 周 和 第 2 周 的 到 访 情况 ， 我 们 需要 使 用 下 述 的 新 


用 户 ( Install ) 数据 和 DAU 数据 。 ， 

@ Install SS SN 
开始 使 用 日 期 。” 用 户 ID ”开始 使 用 时 间 “性别 年 龄 段 设备 

1 2013 年 5 月 要 日 1 1367599368 | 女性 | 40 ~ 49 才 Is 

2 | 2013 年 5 月 14 日 | 


2013 年 5 月 14 日 1368520967 性 | 40~49 岁 | Android 





























2013 宣 5 月 14 卓 1368523275 20 ~ 29 岁 | Android 





2013 年 于 局 1 月 
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@ DAU 


到 访 日 期 
2013 年 6 月 1 《 黑 猫 拼图 》 
2013 年 6 月 1 《 黑 猫 拼图 》 
2013 年 6 月 1 《 黑 猫 拼图 》 








2013 年 6 月 1 《 黑 猫 拼图 》 
2013 年 6 月 1 《 黑 猫 拼图 》 
2013 年 6 月 1 《 黑 猫 拼图 》 























然后 我 们 需要 处 理 3 类 社交 行为 ， 这 里 使 用 的 是 在 某 一 天 各 个 社交 
行为 发 生 的 次 数 的 数据 


R-CODE 
@ 战斗 ( 行为 日 志 ) 9-03/ 


到 访 日 期 应 用 名 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 
( 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 




















@ 发 送 消息 ( 行为 日 志 











到 访 日 期 应 用 名 
( 黑 猫 拼图 》 
2 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 发 送 消息 13 10 
3 | 2013 年 月 下 日 《 黑 猫 拼 图 》 发 送 消息 28 
4 | 2013 年 6 月 1 日 《 黑 猫 拼图 》 发 送 消息 44 2 
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到 访 日 期 应 用 名 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 




















社交 行为 
《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 
2013 年 6 月 1 日 《 黑 猎 拼图》 
2013 年 6 月 1 日 《 黑 猫 拼图 》 


























首先 我 们 计算 出 登录 密度 。 R-CODE WW R-CODE 
“ooo 











经 过 的 天 数 







Install 










5/1 38 











6/1 7 


Install 








限定 “经 过 天 数 = 7 ~ 13 天 ” 








Install 


经 过 的 天 数 




















※2+7 二 0.286 
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OQ 将 DAU 和 首次 访问 时 间 数 据 合 并 

(@ 取得 用 户 首次 访问 后 第 7 ~ 13 天 的 数据 
(3) 计算 出 每 个 用 户 的 登录 密度 

(4 每 个 分 析 对 象 用 户 与 其 登录 密度 合并 


用 户 ID 到 访 日 期 。” 首次 访问 时 间 性 别 ”年 龄 段 ”设备 ”登录 密度 
2013 年 6 月 1 日 |1370012721 20 ~ 29 岁 | Android 





2013 年 6 月 1 1370013166 20 ~ 29 岁 | Android 





2013 年 6 月 1 1370013609 40 ~ 49 岁 | Android 


2013 年 6 月 1 1370014074 20 ~ 29 多 | Android 





2013 年 6 月 1 1370014654 





2013 年 6 月 1 1370015187 20 ~ 29 岁 | Android 





























然后 ， 生 成 用 户 首次 访问 后 7 天 内 的 各 个 社交 行为 的 数据 。 













Action Action 





battle 





battle 








Install 6/7 battle 











用 户 ID 日 期 Action | count Install | 经 过 的 天 数 


battle 





battle 











将 “经 过 的 天 数 ” 的 数据 整理 成 列 


Action 





battle 
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4) 将 各 个 社交 行为 的 数据 和 用 户 首次 访问 时 间 的 数据 合并 
@) 将 时 间 限 定 在 用 户 首 次 访问 后 的 第 0 ~ 6 天 
G@) 将 第 N 天 的 数据 整理 到 同一 列 并 按 天 排列 


@ 实数 数据 
用 户 ID 第 0 天 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 第 6 天 


























@ 比率 数据 
用 户 ID 第 0 天 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 第 6 天 























@ 主 成 分 ( PCA ) 数据 
用 户 ID PC1 


-0.43357 | =1.66066 | 0.19505 | 0.23370 | 1.69151 | 1.04351 | 0.21524 





-1.2153 | 0.10527 | 0.02830 | 0.58337 | 0.47124 | 0.07861 





—1.54932 | 0.17260 | 0.18235 | 1.41448 | 0.90044 | 0.18108 

















至 此 ， 我 们 已 经 生成 了 各 个 社交 行为 和 分 析 属 性 的 数据 ， 接 着 就 是 
使 用 这 份 数据 进行 聚 类 分 析 了 。 在 进行 聚 类 分 析 时 很 重要 的 一 点 是 需要 
知道 类 的 个 数 。 在 商业 应 用 中 ， 虽 说 类 的 个 数 取决 于 聚 类 目的 ,但 一 般 
情况 下 设 3 ~ 6 个 类 就 可 以 了 。 如 果 设 为 2 个 就 过 于 简单 而 不 能 用 ， 如 
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有 果 设 7 个 或 7 个 以 上 那 又 有 点 太 多 了 ， 使 得 类 的 意义 难以 解释 。 因 此 ， 


我 们 选择 3 ~ 6 个 类 来 进行 聚 类 。 


中 通过 3~6 个 类 对 各 种 行为 x 分 析 属 性 进行 








用 户 ID | Action | 分 析 属 
battle 


性 
























用 户 ID | Action | 分 析 属 性 | 第 0 日 | 第 1 日 i 第 6 日 
300 比率 











用 户 ID | Action | 分 析 属 性 | ”PC1 PC2 a PC7 用 户 ID 类 的 种 类 ”| 类 的 个 数 类 


























( 将 “行为 名 称 _ 类 的 个 数 _ 分析 属性 ”作为 自 变 量 





类 的 种 类 | 类 的 个 数 


battle_ 实数 3 1 





用 户 ID 
300 

















用 户 ID | ”类 的 种 类 | 类 的 个 数 类 用 户 ID battle_3_ 实 数 | battle_3_ 比 率 |battle_ 3 _ 主 成 分 
pbattle_ 比率 











用 户 ID | 类 的 种 类 | 类 的 个 数 | 类 














战斗 03 ”战斗 03 战斗 09 ”战斗 06 战斗 06 战斗 06 


用 户 ID 实数 比率 主 成 分 “实数 比率 主 成 分 


二 5y 





1269 
1235 























最 后 ， 将 市 有 登录 密度 的 分 析 对 和 象 用 户 数 据 和 各 个 社交 行为 的 类 数 











R-CODE R-CODE 


-要 
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战斗 的 类 
( 实数 、 比 率 、 主 成 分 ) 






发 送 消息 的 类 
( 实数 、 比 率 、 主 成 分 ) 






协作 的 类 
( 实数 、 比 率 、 主 成 分 ) 





Xx 
( 类 的 个 数 为 3~6 个 ) 





xX 
( 类 的 个 数 为 3~6 个 ) 





xX 
( 类 的 个 数 为 3~6 个 ) 








用 户 ID battle_3_ 实 数 | battle_3_ 比率 | battle_ 3 主 成 分 | msg_3_ 实数 BE help_6 主 成 分 





1 2 3 3 1 























中 合并 战斗 的 类 
GD 合并 协作 的 类 
G@) 合并 发 送 消息 的 类 


登录 战斗 03 战斗 03 战斗 03 ”协作 06 协作 06 协作 06 
密度 ”实数 。” ”比率 主 成 分 实数 。” ”比率 主 成 分 
































至 此 ， 我 们 已 经 将 用 于 决策 树 分 析 的 数据 准备 好 了 。 
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。 史 放 进行 决策 树 分 析 


哪 一 个 社交 行为 对 登录 密度 的 影响 最 大 


我 们 使 用 之 前 获得 的 数据 进行 了 决策 树 分 析 ， 生 成 的 决策 树 如 下 
J 

















类 的 个 数 为 4 时 
的 协作 主 成 分 类 
类 的 个 数 为 6 时 的 





















协作 比率 类 
hlp06_prop.clusterid 
类 的 个 数 为 4 时 的 


发 送 消息 比率 类 























_4 <2.5 三 2.5 
<1.5 三 1.5 |/ \ 
/ SN 
Node 4(n=2538) Node 4(n=136) Node 4(n=135) Node 4(n=18) Node 4(n=141) 
1 O 1 1 
0.8 站 0.8 0.8 
O 
0.6 O 0.6 0.6 
0.4 0 0.4 0.4 
O | 
0.2 0.2 0.2 
O 
0 0 0 
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在 生成 的 这 个 决策 树 中 ， 最 重要 的 一 点 是 哪个 属性 被 置 于 最 上 面 的 
节点 。 这 个 属性 就 是 通过 交叉 列表 统计 测试 所 有 组 合 后 得 到 的 那个 对 
“登录 密度 ”影响 最 大 的 说 明 要 素 。 通 过 上 网 可 以 看 出 ,“ 类 的 个 数 为 4 
时 的 协作 主 成 分 类 ”对 登录 密度 的 影响 最 大 ， 其 次 是 “类 的 个 数 为 6 时 
的 协作 比率 类 ”， 最 右边 的 类 在 第 2 周 的 登录 密度 在 0.7~1， 这 是 一 个 高 
登录 密度 的 状态 。 


研究 每 个 协作 主 成 分 类 的 倾 回 


下 面 我 们 来 研究 一 下 类 的 个 数 为 4 时 的 协作 主 成 分 类 的 特征 。 首 


先 ， 我 们 画 出 每 个 类 的 平均 登录 密度 ， 如 下 图 所 示 。 EN 
”09.16 \09-19) 

















tx 
倍 
跑 。 


主 成 分 类 
将 各 个 协作 主 成 分 类 的 平均 登录 密度 可 视 化 


图 中 的 模 轴 是 类 的 编写， 纵 轴 是 登录 密度 。 可 以 看 出 ， 类 1 和 其 他 
类 的 登录 密度 差别 很 大 。 

接着 我 们 来 观察 各 个 类 中 协作 行为 的 比率 随 经 过 天 数 的 变化 情况 ， 
如 下 图 所 示 。 
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2 
4- 

luster 

o > 1 
2 Npa *- 2 
5 > 2 3 
2sS 4 

< 2 类 4 





days 


将 各 个 类 的 协作 行为 随 经 过 天 数 的 变化 情况 可 视 化 


首先 我 们 来 观察 属于 类 1 的 用 户 群 。 这 些 用 户 从 一 开始 就 有 协作 这 
种 社交 行为 ， 但 是 在 这 之 后 协作 行为 并 没有 增加 ，2 周 后 这 些 用 户 的 登 
录 密 度 反 而 变 得 很 低 了 。 反 过 来 观察 类 3 或 者 类 4 的 用 户 群 ， 这 些 用 户 
也 在 初次 访问 游戏 时 就 有 协作 这 种 行为 ， 而 且 并 没有 就 此 结束 ， 在 后 半 
周 里 以 及 之 后 仍然 保持 了 这 种 行为 ,到 2 周 后 用 户 的 登录 密度 束 变 得 比 
较 高 了 。 夯 外 ， 通 过 仔细 观察 ， 我 们 发 现 用 户 在 初次 访问 洲 戏 后 大 概 3 
天 到 4 天， 协作 行为 发 生 的 次 数 增加 了 了。 由 此 可 知 ,“ 协 作 ” 行 为 逐渐 
增多 的 用 户 更 容易 稳定 访问 游戏 。 
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解决 对 策 


使 用 户 在 开始 游戏 3 天 后 自然 地 发 生 协 作 行 为 


通过 对 社交 行为 的 行为 日 志 进 行 决策 树 分 析 ， 我 们 得 到 了 下 述 


结论 。 


-一 





e@ 对 开始 游戏 后 第 2 周 的 “登录 密度 ”影响 最 大 的 社交 行为 是 “ 协 


作 ” 行 为 
e 在 开始 游戏 后 “协作 ”的 社交 行为 慢 慢 增加 的 用 户 在 这 之 后 会 稳 
定 地 访问 游戏 


基于 上 述 结果 ， 在 和 《 黑 猎 拼图》 游戏 的 俩 划 人 充分 讨论 后 ， 我 们 
得 到 了 下 面 的 解释 。 





e 初次 参与 游戏 的 用 户 尚且 体验 不 到 游戏 的 乐趣 所 在 
e 在 这 个 时 期 这 种 状态 下 用 户 并 不 能 充分 体验 到 和 朋友 之 间 发 生 协 
作 行为 的 好 处 








虽然 之 前 的 分 析 未 能 得 出 定性 的 因果 关系 ,但 是 因为 上 述 结果 来 日 
于 长 期 和 《 黑 猎 拼图》 游戏 打 交 着 的 游戏 策划 人 ， 所 以 这 些 结论 应 该 是 
准确 的 。 

因此 ， 基 于 上 述 定 性 的 结论 和 本 次 分 析 的 结果 ， 我 们 将 推行 下 述 
策略 。 
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中 在 用 户 开始 使 用 后 的 第 3 天 起 ， 为 了 鼓励 游戏 用 户 相 互 协作 的 社 
交行 为 ， 调 高 打败 敌 方 首领 的 难度 

OO) 第 3 天 以 后 ， 为 了 促使 游戏 用 户 相 互 协作 ， 把 向 他 人 寻求 协作 的 

按钮 放置 得 更 加 醒目 
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小 结 





在 本 章 中 ， 我 们 利用 决策 树 分 析 进 行 了 数据 分 析 。 和 那些 利用 数据 
分 析 解 决 问题 的 案例 不 同 ， 本 案例 看 不 出 存在 什么 问题 ， 我 们 进行 的 是 
所 谓 探索 型 的 数据 分 析 。 在 这 类 数据 分 析 中 ， 为 了 验证 各 种 假设 ， 需 要 
耗 避 相当 的 工夫 来 进行 数据 加 工 。 故 外， 在 验证 假设 的 时 候 ， 由 于 处 于 
一 种 问题 较 少 的 状态 ， 相 应 的 线索 也 比较 少 ， 因 此 一 般 会 使 用 多 次 循环 
的 方法 ， 这 就 必然 会 用 到 决策 树 等 效 据 分 析 的 方法 。 





像 这 样 由 数据 驱动 ( 基于 数据 决定 下 一 步 所 采取 的 对 策 ) 来 推进 的 
“业务 改善 ” 仍 属于 数据 分 析 的 范畴 ， 而 且 这 块 业务 实际 上 只 能 由 数据 
分 析 来 完成 。 

分 析 流 程 第 9 章 中 数据 分 析 的 成 本 


现状 和 预期 
发 现 问 题 





数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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及 人 详细 的 愉 代 三 





生成 用 于 读 入 数据 的 国 数 


和 之 前 一 样 ， 我 们 首先 需要 生成 用 于 读 入 “首次 访问 时 间 ”“DAU” 
和 “行为 日 志 ” 数 据 的 R 语言 函数 。 








R-CODE 


0 


library (plyr) 
library (foreach) 


# 获取 首次 访问 时 间 的 数据 
readInstall <- function(app.name, target.day) { 
base.dir <- "sample-data/section9/snapshot/install" 
f <- sprintf ("%s/%s/$s/install.csv'", base.dir, app.name, 
target .day) 
read.csv(f, header = T, stringsAsFactors = F) 


# 获取 DAU 数 据 
readDau <- function(app.name, date.from, date.to) { 
date.from <- as.Date (date.from) 
date.to <- as.Date (date.to) 
dates <- segq.Date(date.from, date.to, by = "day") 
ldply (foreach (day = dates, combine = rbind) %do% { 
base.dir <- "sample-data/section9/daily/dau" 
f <- sprintf ("%s/%$s/%$s/dau.csv", base.dir, app.name, day) 
read.csv(f, header = T, stringsAsFactors = F) 


# 获取 行为 日 志 数据 


readAction <- function(app.name, action.name, date.from, date.to) { 
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date.from <- as.Date (date.from) 

date.to <- as.Date (date.to) 

dates <- segq.Date(date.from, date.to, by = "day'") 

ldply (foreach(day = dates, combine = rbind) %do% { 

base.dir <- "sample-data/section9/daily/action" 
EY Nes 
base.dir, app.name, action.name, day, action.name) 

read.csv(f, header = T, stringsAsFactors = F) 





}) 
} 
生成 男 数 后 ， 我 们 就 可 以 谈 和 各 类 数据 了 。 
# Install 





install <- readlinstall("game-01", W2013-09-30") 

head (install) 

# DAU 

dau <- readDau("game-01", "2013-06-01", "2013-09-30") 
head (dau) 


@@ Install 


I ed rind, jd, pad ed lene, ne. jet ee si pi ed Nit, heh 0 ee et et pl ed eed Nn, en, i, jet ieee J, Pt ed Nie Ne ee el el ate .Ned en et ren, jt Pt ed ie Ne et eel ete pl ed je le, ed ,fe ied id Pt jiaod Dice, eh ee ei i ed ed, Nl: eed, es Din, eh eh een ed! Pe eed Ve eh eet int rd it lie 


## log date user id install time gender generation device type 


2013-05-04 
2013-05-14 
2013-05-14 
2013-05-14 
2013-05-14 


1367599368 
1368514618 
1368518894 
1368520967 
1368523275 


40 
20 
20 
40 


i105S 
Android 
Android 
Android 
Android 


i ee ee i i i i i i i i i i ee i ee i bd i i i i dd ee ed ed i td oe i i ee i i i de ed ee ee i i i de i ee i i ee de de ee i i i de i de i i te i ee i i di i 


log date app name user id 


2013-06-01 
2013-06-01 
2013-06-01 
2013-06-01 
2013-06-01 


game-01 
game-01 


1701 
1720 
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行为 日 志 〈 战 斗 、 发 送 消息 、 协 作 ) 








R-CODE 
ee e909 
battle <- readAction("game-01", "battle", "2013-06-01", "2013-08-31") 
head (battle) 

# message 

msg <- readAction('"game-01", "message", "2013-06-01", "2013-08-31") 
head (msg) 

# help 

hip ead ion oa 00 ne oo US 203 O08 In 


head (hlp) 


@ 战斗 ( 行为 日 志 ) 


log date app name action name useér 1Q count 


2013-06-01 
2013~06=01 
2013=06=01 
2013-06-01 
2013-06-01 


game-01 
game-01 


battle 1087 1 | 
battle 1570 1 | 
battle 1570 1 | 
battle 1257 1 I 
battle 1257 1 I 


I 


log date app name action name 


2013=06=01 
2013=06=01 
2013-06-01 
2013-06-01 
2013-06-01 


game-01 
game-01 
game-01 


User 1d ount 


message 8 8 
message 13 10 
message 28 | 
message 44 l 
message 49 | 


log date app name action name 


2013=06=01 
2013-06-01 
2013-06-01 
2013-06-01 
2013-06-01 


game-01 
game-01 


help 6 3 
help 8 13 | 
help 10 3 I 
help 13 51 
help 28 6 
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计算 出 登录 密度 








# 合并 DAU 和 首次 访问 时 间 的 数据 

use mergeldarmr mse a ly er ed Smile 
CA Se 

head (dau. inst) 


# 限定 为 用 户 开 始 游戏 后 第 7~13 天 的 数据 

dau nasesloondae 3 Dobe ne looongare) 

daue nse log date net 3Dabeldan nest Jog dere nse) 

dau ne el pedd oS mmerie(ld mr mE oo 
daue inot Jogrdare neg) 


同和 二 二 作证 和 

qa mseldarm me = lps 7 7 

daue net el ea = | 

neaciladau tnee 7 nl) 

# 计算 出 登录 密度 

dau ing 7 ol og < ly (au nl Ser Li ummar ze 
density = length (log date)/7) 


heagd laau lInst 7 Lm ds) 


## user id density 


## 1 301 0.1429 
## 2 310 0.1429 
## 3 316 0.1429 | 
## 4 319 0.1429 | 
## 5 322 0.1429 
## 6 333 0.1429 I 


合并 分 析 对 象 用 尸 和 登录 密度 数据 








R-CODE 


target nsetall < nstall linetalls logndare >S=0"201 3 06501 09-05/ 
nseall leondate = " 2073 08 25" | 


# 合并 对 象 用 户 和 登录 密度 数据 


target.install.login.ds <- 
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第 9 草 


Wenrnegeueandgeeeuseelu ou 10 oq sy 
lp = ee ol 
target.install.login.ds$density <- 
lifelse(is.na(target.install.login.ds$density), 0, 
target.install.login.ds$density) 
head (target.install.login.ds) 


## user id log date install time gender generation device type density 


; 振 1 1693 2013-06-01 1370012721 F 20 Android ,| 
; 振 2 1694 2013-06-01 1370013166 F 20 Android 0 | 
; 振 3 1695 2013-06-01 1370013609 M 40 Android 0 | 
; 振 4 1696 2013-06-01 1370014074 M 20 Android EE 
; 所 5 1697 2013-06-01 1370014654 F 30 i08 0 | 
; 振 6 1698 2013-06-01 1370015187 F 20 Android 5 


生成 天 于 战斗 的 数据 





@ 生成 实数 数据 





# 合并 战斗 行为 数据 和 用 户 首次 访问 时 间 的 数据 
ER 
ES 

head (battle.inst) 


# 计算 用 户 进行 战斗 的 时 间 和 首次 访问 时 间 的 时 间 差 

porele me loogmd ee 3 Darelboacel me loondaee, 

pavtle nse logdaLe ns a Dovelart le mst Lodare ns 
poetele ne lo dd a mum ll Ee oom 
pacele nee Loond ee LIne 


# 限定 为 用 户 进行 战斗 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
Bocellimee ee ele ne el Dae 0 
pacele ma el ned 6 | 


# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 

library (reshape2) 
Eee 
bastle mst 2 ca qqecaseaeeeense ussrq clapseg gave 
value.var = "count", sum) 

head (battle.inst2.cast) 
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@ 输出 实数 数据 


; 拓 1 1257 0 0 0 00 0 8 , 
| 机 2 1269 0 000004 
i; 插 3 1295 0 0 0 0 007 
| 插 4 1512 0 0 0 0 200 | 
(机 5 1570 0 0 2 .0000 | 
| 插 6 1611 0 0 17 0 00 | 


@ 生成 比率 数据 和 主 成 分 ( PCA ) 数据 





# 生成 比率 数据 

battle.inst2.cast.prop <- battle.inst2.cast 

battle.inst2.cast.prop[, -1] <- 
battle.inst2.cast.prop[, -1]/rowSums (battle.inst2.cast.prop[, -1]) 

head (battle.inst2.cast .prop) 


# PCA 

b.pea< preomo(battle.inst2"cast[,. 11 secale = 7) 

summary (b .pca) 

battle inest 2 cast De date teameluser ld battle Inet2 aot Uger ld, 
b.pcas$x) 

head (battle.inst2.cast.pca) 


@ 输出 比率 数据 


### user id d0 dl d2 d3 d4 d5 d6 


## 1 1257 0 00.000 0.000 0 0 1 
## 2 1269 0 00.000 0.000 0 0 1 I 
| ## 3 1295 0 00.000 0.000 0 0 1 I 
## 4 1512 0 00.000 0.000 1 0 0 
## 5 1570 0 01.000 0.000 0 0 0 
## 6 1611 0 00.125 0.875 0 0 0 ] 


en ind it pl ie ee .tie tn) Fed: et ed i Ne ee ind ed i ed Nk, te ,et tie id: Pe ed Vi Hed ee ee int ed et, od Ne, eet ee eol a tian nd ee" a cat eh eet eid et, dl" i Nee, et ee ee ed ire tin, cd! Pee a ce te. a ti iat, ed dd Nn, ee ne, ee) et) id: Pd a, Ne a ee ee ind el, de ed ee et 
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@ 输出 主 成 分 ( PCA ) 数据 

## User 1id PC1 PC2 PC3 PC4 PC5 PC6 PC7 
柑 
;村 
村 


1 1257 -0.43357 -1.66066 0.19505 0.2337 1.6915 1.0435 0 

2 1269 0.09118 -1.21529 0.10527 0.0283 0.5834 0.4712 0.07861 

3 1295 -0.30238 -1.54932 0.17260 0.1823 1.4145 0.9004 0 

## 4 1512 0.30613 -0.78562 0.06929 -0.2168 -0.6419 -0.2476 0.28923 

## 5 1570 0.29958 -0.08815 -0.73393 -1.2996 -0.3917 0.4036 -0.06374 
6 1611 -0.44535 0.59944 -4.99863 2.4381 0.3789 -1.8523 -0.30154 


生成 发 送 消 息 的 数据 


※ 这 一 步 的 操作 和 生成 关于 战斗 的 数据 是 一 样 的 ， 所 以 这 里 就 省 略 了 执 
行 结 来 。 





@ 生成 实数 数据 


# 合并 发 送 消息 数据 和 用 户 首次 访问 时 间 的 数据 

Meg nt crocs lo 三 Eee 
"lmseEv)) 

head (msg .inst) 





# 计算 发 送 消 息 的 时 间 和 首次 访问 时 间 的 时 间 差 

magnee Lod rdaee 30 Datelmeg mse lognd3Ee, 

msg Instoloo rdate Inste— asDate(mnsg nestolog date insk) 
Megr nest elapDsed dy aureus oodare. 
Meg unset lod doce nae 


# 限定 为 发 送 消息 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
Mesog LNsSe2 < Mg ntinsg Met elapseddy 0% mg me elapsed dys 
入 三 9， ] 


# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 
meguumnse2 elopsednd se pasee0l od ng ns elapsgednd ys 
Meg nest 2 Ca < deasElmnso me user la ed vl 


var SS WV@ovwicr!, gw) 


head (msg.inst2.cast) 
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@ 生成 比率 数据 、 主 成 分 ( PCA ) 数据 





# 生成 比率 数据 

msg.inst2.cast.prop <- msg.inst2.cast 

msg.inst2.cast. propl, 1 < msg.inst2.cast.propl, 
-1] /rowSums (msg.inst2.cast.prop[, -1]) 

head (msg.inst2.cast .prop) 


# PCA 
m.pca <- prcomp (msg.inst2.cast[, -1], scale = T) 
summary (m.pca) 


msg Lob 2 casi pcan aaba trame (Use ro ng nt 2 coast USer To 
m.pcas$x) 
head (msg.inst2.cast .pca) 


生成 协作 数据 


※ 这 一 步 的 操作 和 生成 关于 战斗 的 数据 是 一 样 的 ， 所 以 这 里 就 省 略 了 执 








R-CODE 
# 合并 用 户 协作 数据 和 首次 访问 时 间 的 数据 Wa 
nl nst .mrgel( hl stall ly = Veco SERIESE el oe lms ny 
head (hlp.inst) 


# 计算 发 生 协 作 的 时 间 和 首次 访问 时 间 的 时 间 差 

hp linst> lo date as Date (no Inst> loordate) 

hip ne Loo dr ne De ne oggqse Tn 
nlp Inst>elapsed davs < asenumerielnlo nest logmdarer 
nlpe neto lo date ln) 


# 限定 为 发 生 协 作 的 时 间 和 首次 访问 时 间 的 时 间 差 在 1 周 以 内 的 数据 
nip not 20 ho instlinlp nese elapseddays 305 hip ist .elapsed 
days <= 6, |] 


# 将 首次 访问 之 后 经 过 的 天 数 按 列 排列 


npeinest 2 elased da pore dr on net 2 .lsed daye) 
luan Reaste qcast (hl net user i lane le 
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vear EC en 
head (hlp.inst2.cast) 


@ 生成 比率 数据 、 主 成 分 ( PCA ) 数据 
R-CODE 


4 生成 比率 数据 oY 


hilp.inst2.cast.prop <- hilp.inst2.cast 
hilp.inst2.cast.prop[, -1] <- hilp.inst2.cast.propl, 
/ewe (ee No 

head (hlp.inst2.cast .prop) 


# PCA 
nmeeam eomel eel seu 
summary (h .pca) 


nlp nest ea Dea qdace frameluser nde hp inet .cast User er 
h.pcasx) 
head (hlp.inst2.cast .pca) 


对 行为 日 志 进 行 聚 类 








# 用 来 生成 关于 类 数据 的 函数 
createClusterData <- function(aname, x, XxX.prop, XxX.pca) { 
set.seed (10) 
df <- ldply(foreach(i = 3:6, combine = rbind) %do% { 
km <- kmeans (x[, -1], i) 
km.prop <- kmeans (x.prop[, -1], i) 
km.pca <- kmeans (x.pcal, -1], i) 
dabae rr ame (user lo 7 User Ide el er ve = De 
("$s%$02d", aname, 
1), fxre6.C LUICeEr,16 se mC, Died.CLuSEEP,16 e 
km.prop$cluster, 
Bemenuslse oe me edule 
}) 
cluster mel ee nel lo Vare = er eelser ve, 
deasie lelu er mel user ed Celery er vr le 


# 战斗 


la ee eneaee esr De ae ei ea 
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battle.inst2.cast.prop, 
battle.inst2.cast .pca) 
head (battle.cluster) 


WE 
msg.cluster <- createClusterData('"'msg'", msg.inst2.cast, 
msg.inst2.cast .prop, 
msg.inst2.cast .pca) 
head (msg.cluster) 


# 协作 
hlp.cluster <- createClusterData("hlp", hlp.inst2.cast, 
ls. Ingt2.,. Gast ,7600, 
hlp.inst2.cast .pca) 
head (hlp.cluster) 


@ 对 战斗 数据 进行 聚 类 后 的 结果 


## user id battle03 freg.cluster.id battle03 prop.cluster.id 


### 1 1257 1 1 
## 2 1269 ] 1 
| 拓 3 ” 1295 ] 和 : 
## 4 1512 3 1 | 
| ## 5 1570 3 2 8 
| 振 6 1611 3 和 : 


我 们 将 用 户 的 登录 密度 和 与 “战斗 ”相关 的 类 数据 合并 。 





> 与 “发 送 消 奶 ” 相 关 的 类 数据 合并 
> 与 “协作 ”相关 的 类 数据 合并 
| “po” 替换 “NA” 





R-CODE 


WD 


# cluster data 

cluster.data <- merge (target.install.login.ds, battle.cluster, 
lo 

clster gar MergelclusEer dare mgrelestes 0ser ld o> 7T) 
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Cluster da noeiehuseer a ne le er 
cluster.datalis.na(lcluster.data)] <- 0 


head (cluster.data) 


登录 密度 由 小 到 大 的 顺序 午 新 排列 








R-CODE 
# 将 按 列 排列 的 类 转换 成 按 行 排列 的 形式 e914 


cluster data mel ee mele(clvuscer dearol Ce(2 6 1d vrs euer 
16 Voenmsleyu)) 





# 按照 类 的 种 类 或 编号 计算 各 个 类 的 平均 登录 密度 

cluster.data.avg <- ddply(cluster.data.melt, .(variable, value), 
summarize, average.density = mean (density)) 

head (cluster.data.avg) 


# 重新 赋予 一 个 新 的 类 编号 

cluster.data.avg <- arrange(cluster.data.avg, variable, average. 
density) 

cluster.data.avg <- ddplyl(cluster.data.avg, . (variable), transform, 
value2 = sort (value)) 


# 按照 新 的 类 编号 进行 合并 

cluster.data.melt2 <- merge (cluster.data.melt, cluster.data.avg, by = 
Gluvarialerl, valumer!)) 

head (cluster.data.melt2) 


# 将 类 的 种 类 整理 成 按 列 排列 的 形式 

Clusecr da 2 < ee ne user ge nu 
variable, value.var = "value2") 

head (cluster.data2) 
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! ## user id density battle03 freq.cluster.id battle03 prop.cluster.id 


;所 1 1693 0 0 
; 朱 2 ”1694 0 0 0 |! 
; 失 3 ”1695 0 0 0 |! 
i; 所 4 1696 0 0 中 | 
;所 5 ”1697 0 0 | 
: 埋 6 1698 0 0 0 : 
0- 略 ~ 


! 村 hip06 fred.cluster.id hlp06 Dropseluster aa hip06 peacluster.,id 


i i ie ee be ee ee a td ed i ed Wd te a ed te i i ed et be i a i ee id ed ed ed Wid td i ed te a i ed i dt ed td ee id ed ed Vd bd ee i ed et a ed eed i it te i ed tl ed td ed ed id i te ed te ee ed ed ed Nd tt td ed ti sd id ed ed Wid tid ed i te te a i i de de 





决 傈 树 分析 的 执行 和 可 视 化 


在 R 语言 中 ， 实现 决 案 树 分 析 有 很 多 种 方法 ， 这 里 我 们 使 用 rpart 
程序 包 中 的 rpart 函数 。 





R-CODE 


Qe 


library (rpart) 
fit <- rpart(density ~. cluster.data2[, °° 1]) 
DELmE (Ele) 


library (partykit) 
plot las partey (fiE ED SS 三 人 | 
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hlp04_pca.clusterid 


通过 观察 哪个 属性 位 于 最 上 面 
的 节点 ， 可 以 确认 类 的 个 数 为 4 
时 的 协作 主 成 分 类 的 影响 最 大 






















其 次 是 类 的 个 数 为 6 时 的 
协作 比率 类 





三 2. 最 右边 


在 第 2 
0.7=~| 
明 用 户 到 访 <2.5 三 2.5 


比较 稳定 





Node 4(n=2538) Node 4(n=136) Node 4(n=135) Node 4(n=18) 





1 六 1 - 
0.8 9 0.8 
O 
0.6 0 0.6 
0.4 9 0.4 
© 
0.2 0.2 
© 
v1 | 0 




















协作 主 成 分 类 的 详细 内 容 


R-CODE 


cluster.data3 <- cluster.data.melt2 四 716 
deeeeluesecreq 

TS TO qh we 
names (cluster.data3) [3] <- "cluster" 


nlp.inst2.cast.prop2 < merge(hlp.inst2.cast.prop, cluster.data3, 
ly = ore, 
table (hlp.inst2.cast.prop2s$cluster) 


I i i i i i ee be dd i i et i be ee bd dd id Ve i ed a ie bi i dt i et ed bie i bn de be eid eh ie bid a ed bet be ed el be ed et i de bene iad el nd be i i et be ed el bd Nie ie i dt bone ed ed hie et bid i ed Nt bs ed ed el bd ee ed i de he i 


## 1 2 3 4 
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ESE 








R-CODE 


hlp.inst2.cast.summary <- ddply (hlp.inst2.cast.prop2, . (cluster), Wy 
summarize, 
login.density = average.density[1], d0 = sum(d0)/length(user id), 
dl ”= Sun(gal) /lenoth(user dq) 
2 eum(d2) /length(user™qd) gq > EU /length(usero ig) 
sum(d4)/length (user id) ， 
d5 = sum(d5)/length (user id), d6 = sum(d6)/length (user id) ) 
hlp.inst2.cast.summary 


OQ 
心 
ll 


dl i 0 dd 6 df 
0.1605 0.0735 0.04937 0.04066 0.03247 0.03318 | 
0.1306 0.1249 0.09879 0.10272 0.14187 0.12020 
0.2545 0.1302 0.13166 0.10181 0.07141 0.0937 | 
0.0901 0.2036 0.12391 0.22772 0.14576 0.10855 | 


Hd 0 DD 一 





























将 各 个 类 的 平均 登录 密度 可 视 化 





library (ggplot2) 

ggplot (hlp.inst2.cast.summary, aes(x = cluster, y = login.density)) + 
geomnel( 
geom eon 
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类 1 和 类 2~4 的 
登录 密度 差别 
很 大 









将 协作 行为 按照 类 和 时 间 可 视 化 





R-CODE 


hlp.inst2.cast.summary.melt <- melt (hlp.inst2.cast.summary[l, -2], 09 194 
VE 二 csSesna 

hlp.inst2.cast.summary.meltS$days <- 

as.numeric(substr (hlp.inst2.cast.summary.melt$variable, 2, 3)) 
hilp.inst2.cast.summary.melt$cluster <- 

as.factor (hlp.inst2.cast.summary.melt$cluster) 


ggplot (hlp.inst2.cast.summary.melt, aes(x = days, y = value, col = 
cluster)) 
aeomlel geomnpou ll 


e@ 对 开始 游戏 后 第 2 周 的 “登录 密度 ”影响 最 大 的 社交 行为 是 “ 协 


作 ” 行 为 
e 在 开始 游戏 后 “协作 ”的 社交 行为 慢 慢 增加 的 用 户 在 这 之 后 会 稳 
定 地 访问 游戏 
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9.7 ”详细 的 R 代码 


类 1 的 用 户 在 开始 游戏 后 就 有 
了 “协作 ”行为 ， 但 之 后 这 
种 行为 发 生 的 次 数 不 断 下 降 ， 
从 上 页 的 图 中 可 以 看 出 2 周 后 这 
类 用 户 的 登录 密度 变 得 很 低 。 
类 3 和 类 4 的 用 户 在 开始 游戏 3 
天 后 “协作 ”行为 开始 变 得 
多 了 起 来 ， 在 这 之 后 持续 增 
加 ，2 周 后 登录 密度 就 已 经 很 


高 了 





PAS 
下 一 类 3 
\ | > 
6 ee “ 类 4 多 
| 

和 

“te SS _ 

ee SS 
人 -一 一 ES 一 全 ye 

一 外 一 一 全 
~- 和 一 一 pe pi 
一- 一 一 一 
= 
1 1 
0 4 
days 


cluster 
二 和 
2 
3 


4 4 
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[分 析 应 用 ] 篇 





第 10 章 
案例 @ 一 机 器 学 习 


如 何 让 组 队 游戏 充满 乐趣 





选择 能 够 生成 高 精度 预测 模型 的 学 习 器 

公司 的 游戏 运营 策划 人 员 最 近 针 对 《 黑 猎 拼图》 游戏 提出 了 
一 个 新 的 活动 方案 ， 即 用 户 可 以 通过 组 队 的 方式 相互 协作 共 
同 打败 敌 方 首领 。 为 了 让 这 个 活动 给 用 户 带 来 充分 的 乐趣 ， 
我 们 希望 可 以 促使 在 相同 时 间 段 来 访 的 用 户 组 队 一 起 参与 游 
戏 ， 那 么 我 们 该 怎么 做 呢 ? 
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使 组 队 作成 的 乐趣 了 最 
大 化 







《 黑 猫 拼图 游戏 的 运营 状况 稳定 ， 实 现 了 良好 的 商业 验证 循环 
在 上 一 章 中 我 们 也 看 到 了 ,《 黑 猫 拼图 》 游 戏 目前 并 没有 什么 大 的 








问题 ， 而 且 还 是 公司 稳定 的 收益 来 源 。 在 很 多 商业 领域 中 ， 所 谓 的 稳定 
状态 ， 是 指 荣 划 人 员 在 充分 讨论 的 基础 上 能 够 把 握 用 户 体 验 这 样 一 种 状 
态 ， 这 种 状态 一 般 出 现在 所 策划 和 实施 的 服务 得 到 用 户 的 大 力 文 持 之 
后 。 在 达到 稳定 状态 后 ， 为 了 获得 更 多 的 用 户 ， 往 往 会 在 游戏 中 提供 新 
的 服务 ， 同 时 也 会 准备 新 的 案 划 方 条 以 应 对 新 的 挑战 或 进行 尝试 。 

同样 ， 在 《 墨 猫 拼图 》 洲 戏 达 到 稳定 的 运 党 状态 后 ， 游 戏 策划 人 员 
为 了 提升 游戏 用 户 参 与 游戏 的 乐趣 ， 讨 论 和 实施 了 多 种 策划 方案 ， 并 在 
方案 实施 后 通过 数据 验证 来 判断 策划 方案 的 好 坏 ， 从 而 形成 了 一 套 完 整 
良好 的 商业 验证 循环 (PDCA )。 

















良好 的 商业 验证 循环 (PDCA) 
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一 种 新 的 游戏 方式 : 组 队 作战 








在 这 一 过 程 中 ， 有 位 策划 人 员 提 出 了 一 个 策划 方案 ， 那 就 是 在 游戏 
中 人 允许 多 名 用 户 组 成 团队 ， 通 过 相互 协作 的 方式 击败 强大 的 政 方 首 领 。 
而 在 组 队 作 成 中 最 重要 的 就 是 这 个 队伍 该 如 何 组 建 。 目 前 的 情况 是 考虑 
通过 游戏 同伴 间 相 互 应 允 的 方式 来 组 队 ， 但 是 也 有 人 提出 应 考虑 下 是 否 
还 有 别 的 更 能 提升 组 队 作 战 所 趣 的 组 队 方 式 。 

因此 ， 我 们 希望 灵活 运用 数据 分 析 的 方法 找到 一 种 组 队 方式 ， 能 
使 组 队 作战 的 乐趣 最 大 化 。 在 本 例 中 ， 由 于 我 们 所 面临 的 问题 并 不 是 显 
而 易 见 的 ， 因 此 很 难 确定 现状 和 预期 。 但 我 们 可 以 先 将 “目前 的 组 队 方 
式 并 不 是 最 合适 的 ”作为 现状 ， 而 将 “该 组 队 方 式 是 最 合适 的 ”作为 我 
们 的 预期 。 





























第 10 章 的 现状 和 预期 
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ee 利用 数据 分 析 为 服务 
增加 附加 价值 





尝试 定义 组 队 作 战 的 乐趣 


本 章 的 案例 和 第 9 章 一 样 ， 我 们 需要 解决 的 并 不 是 一 个 显而易见 的 
问题 ， 而 是 希望 通过 灵活 运用 数据 分 析 来 提升 组 队 作战 的 乐趣 。 

那么 ,“ 组 队 作战 的 乐趣 ” 指 的 又 是 什么 呢 ? 在 上 一 章 中 我 们 已 经 
谈 到 了 ， 每 个 人 对 于 “乐趣 ”的 看 法 各 有 不 同 ， 因 此 光 说 “乐趣 ”是 很 
难 让 讨论 进行 下 去 的 ， 我 们 需要 先 规定 何 为 “组 队 作 战 的 乐趣 ”。 为 此 ， 
我 们 和 游戏 策划 部 门 一 起 进行 了 探讨 。 在 经 过 多 次 讨论 后 ， 我 们 得 到 了 
如 下 意见 。 

















“用 户 即 使 参与 了 组 队 ， 但 如 果 该 队伍 中 的 成 员 很 少 能 在 相同 时 间 
段 进 行 游戏 ， 用 户 就 会 产生 一 种 队伍 里 参与 游戏 的 人 数 太 少 的 错 
觉 ， 从 而 也 很 难 体验 到 组 队 作 战 的 乐趣 。* 





依照 这 个 意见 ， 我 们 大 致 得 出 了 “组 队 作 战 的 乐趣 ”的 定义 ， 即 : 


和 同伴 一 起 实时 战斗 的 感觉 








如 果 团 队 成 员 能 够 把 在 同一 时 间 参 与 游戏 的 人 汇集 在 一 起 ， 就 能 孚 
受到 组 队 作 战 的 乐趣 。 因 此 ， 我 们 就 将 “组 队 作成 的 乐趣 ”量化 定义 成 
“队伍 中 能 在 相同 时 间 段 共同 进行 游戏 的 人 数 ”"， 并 灵活 运用 数据 分 析 探 
讨 把 在 相同 时 间 段 进行 游戏 的 人 汇集 起 来 的 可 能 性 。 
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整理 本 次 分 析 的 流程 





由 于 我 们 已 经 从 数据 分 析 的 角度 定义 了 组 队 作战 的 乐趣 ， 下 面 我 们 
来 整理 一 下 数据 分 析 的 流程 。 本 例 中 数据 分 析 的 具体 步骤 如 下 。 





@ 目的 

希望 组 队 时 队伍 中 相同 时 间 段 进行 游戏 的 成 员 较 多 
@ 分 析 方 法 

根据 用 户 过 去 的 访问 情况 ， 预 测 每 个 用 户 第 二 天 什么 时 间 段 来 访 
@ 解决 对 策 

基于 分 析 的 结 来 ， 将 可 能 在 相同 时 间 段 来 访 的 用 户 置 于 同一 组 





用 户 A 之 前 的 访问 情况 用 户 A 明 天 几 点 会 来 ? 


周一 周一 周二 周三 ”周三 | 2? 
7 点 .235 真 23 点 3 点 : 


i 


; 7 





如 采 根 据 数 据 分 析 的 绪 末 不 能 够 预 佑 每 个 用 户 第 2 天 来 访 的 时 间 
段 ， 那 么 我 们 束 需 要 将 沫 划 方 案 变更 为 其 他 更 殖 当 的 方案 。 而 如 果 我 们 
能 够 预 佑 每 个 用 户 第 2 天 来 访 的 时 间 段 ， 那 么 就 可 以 在 游戏 中 利用 分 析 
的 结果 ， 证 用 户 感受 到 新 的 游戏 乐趣 。 而 在 后 一 种 情况 下 ， 无 论 茶 个 人 
在 这 个 领域 里 的 经 验 有 多 丰富 ， 他 也 无 法 预 估 每 个 用 户 第 2 天 来 访 的 时 
间 段 ， 因 而 成 就 了 数据 分 析 作 为 游戏 附加 价值 的 意义 。 
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【eg 在 数据 中 排除 星期 的 


影响 





讨论 统计 单位 

下 面 我 们 来 讨论 本 案例 分 析 中 所 需 的 数据 。 在 本 例 中 ， 我 们 需要 知 
道 “ 每 个 用 户 可 能 会 在 哪些 时 间 段 来 访 ”， 而 每 个 用 户 以 前 的 来 访 时 间 
段 都 记录 在 各 个 行为 日 志 中 。 

然而 ， 现 有 的 日 志 中 只 记录 了 每 个 具体 的 行为 发 生 于 几 点 几 分 几 
秒 ,或 者 只 以 天 为 单位 统计 数据 。 考 虑 到 在 游戏 中 的 应 用 ， 即 使 以 秒 > 
单位 进行 的 数据 统计 ， 也 很 难以 秒 为 单位 来 制定 游戏 策划 方案 。 男 外 ， 
由 于 游戏 的 用 户 数 量 并 不 是 太 大 ， 如 末 以 秒 为 单位 来 统计 ， 我 们 就 很 难 
把 握 用 户 在 使 用 时 间 上 的 倾向 。 同 样 ， 即 使 数据 是 以 天 为 单位 统计 的 ， 
按 天 来 制定 游戏 朱 划 方案 也 比较 困难 。 因 此 我 们 首先 和 游戏 的 策划 人 员 
进行 了 讨论 ， 并 确定 了 以 小 时 为 单位 来 向 用 户 提 供 组 队 作战 的 服务 。 然 
后 我 们 对 每 小 时 内 所 有 的 用 户 行为 数量 进行 了 统计 ， 并 将 其 作为 中 间 数 
据 输 出 。 

之 后 ， 我 们 基于 上 述 所 有 用 户 行为 的 中 间 数 据 ， 对 用 户 过 去 的 使 用 
情况 和 第 2 天 的 使 用 情况 进行 了 相关 性 分 析 ， 发 现 用 户 的 某 个 行为 A 与 
第 2 天 用 户 的 使 用 情况 关系 紧密 。 也 就 是 说 ， 如 果 我 们 以 用 户 的 行为 A 
作为 参考 ， 也 许可 以 推 凯 出 用 户 第 2 天 来 访 的 时 间 段 。 为 了 说 明 方 便 ， 
下 文中 我 们 只 给 出 行为 A 的 数据 作为 中 间 数 据 。 
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下 面 我 们 利用 行为 A 的 中 间 数 据 来 生成 分 析 用 的 数据 。 首 先 ， 读 入 
行为 A 的 中 间 数 据 。 


@ 行为 A 的 中 间 数 据 
使 用 时 间 段 。 游戏 名 称 用 户 ID 使 用 次 数 
2013 年 8 月 1 日 《 黑 猫 拼图 》 
2013 年 8 月 1 日 《 黑 猫 拼图 》 
2013 年 8 月 1 日 《 黑 猫 拼图 》 
2013 年 8 月 1 日 《 黑 猫 拼图 》 
2013 年 8 月 1 日 《 黑 猫 拼图 》 


























行为 A 的 中 间 数 据 记录 了 每 个 时 间 段 、 每 个 用 户 来 访 了 多 少 次 的 数 
据 ， 但 是 这 样 的 数据 很 难 用 来 进行 预测 分 析 ， 所 以 我 们 需要 将 数据 整理 
成 以 时 间 段 作为 列 的 形式 。 


@ 以 时 间 段 作为 列 的 数据 


NO El Or A 22 



































生成 7 天 的 以 时 间 段 作为 列 的 数据 
上 面 得 到 的 是 1 天 的 以 时 间 段 作为 列 的 数据 。 这 样 的 数据 看 上 去 已 





经 可 以 用 于 数据 分 析 了 ， 但 却 忽 略 了 工作 日 和 周末 节假日 等 因素 的 影 
响 。 为 了 消除 这 种 影响 ， 我 们 使 用 过 去 7 天 的 数据 ， 并 将 数据 整理 成 以 
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7 天 的 各 个 时 间 段 作为 列 的 形式 。 在 整理 完成 的 表格 中 ， 每 个 单元 格 表 
示 了 在 周 几 的 几 点 某 个 用 户 是 否 发 生 了 茶 种 行为 《On / Off )。 








@ 以 7 天 内 的 各 个 时 间 段 作为 列 的 数据 


周 日 22 点 
Off 
回放 




















生成 包含 目 变 量 和 因 变 量 的 数据 


现在 我 们 已 经 获得 了 7 天 的 以 时 间 段 作为 列 的 数据 ,但 是 在 这 份 数 
据 中 只 有 日 变量 ,那么 因 变 量 在 哪 呢 ? 

在 本 例 中 ， 因 变量 和 目 变 量 的 含义 一 样 ， 指 的 是 茶 天 的 茶 个 时 间 段 
用 户 是 否 来 访 。 但 是 ， 因 变量 的 “ 某 天 ” 指 的 是 自 变 量 的 7 天 之 后 的 下 
一 天 (下 个 周一 的 1 点 至 23 点 )。 下面 我 们 将 这 两 部 分 数据 合并 起 来 。 




















@ 新 增 了 因 变 量 的 数据 
一 国 因 变 量 > 
用 户 ID 周一 0 点 周一 1 点 … 周 日 23 点 周一 1 点 … 周一 23 点 
Off 
Off 






































经 过 上 述 处 理 ， 这 些 数据 就 可 以 用 于 数据 分 析 了 。 
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时 和 构建 预测 模型 


( 逻辑 回归 、k 近 邻 法 、 朴 素 贝 叶 斯 分 类 器 、SVM、 随 机 森林 ) 








生成 预测 模型 的 步 又 


那么 我 们 该 如 何 得 到 预测 模型 呢 ? 首 先 ， 不 是 所 有 的 数据 都 可 以 用 
来 构建 预测 模型 的 。 特 别 是 数据 分 析 的 初中 级 人 员 ， 如 果 按 照 书 上 或 网 
上 所 说 的 生成 预测 模型 的 步骤 来 操作 ， 经 第 会 发 现 书 上 或 网 上 的 步骤 并 
不 适用 于 实际 的 数据 。 


国 “规则 性 ”和 “一 致 性 ”的 验证 

用 来 生成 预测 模型 的 工具 有 很 多 ， 根据 它 们 的 后 从 逻辑 来 看 ， 这 些 
工具 各 有 优 劣 。 但 无 论 使 用 哪 种 工具 ， 要 想得到 预测 模型 ， 就 必须 满足 
下 面 两 个 条 件 。 

















e@ 数据 要 有 某 种 程度 的 规则 性 
e@ 数据 要 有 某 种 程度 的 一 致 性 


满足 了 上 述 条 件 ， 就 很 有 可 能 顺利 得 到 预测 模型 。 具 体 来 说 ， 
“规则 性 ”是 针对 数据 行列 的 列 来 说 的 ， 而 “一 任性 ”是 针对 数据 行列 
的 行 来 说 的 。 在 本 章 的 案例 中 ， 每 一 列表 示 的 是 用 户 的 访问 时 间 ， 所 以 
我 们 需要 验证 用 户 的 访问 是 否 具 有 大 致 的 周期 性 。 而 数据 的 每 一 行 表示 
的 是 每 一 位 用 户 ， 所 以 我 们 需要 验证 用 户 之 间 是 否 具 有 大 体 相似 的 访问 
行为 。 

也 就 是 说 ， 我 们 在 生成 预测 模型 的 时 候 ， 首 移 需 要 做 的 就 是 验证 所 
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使 用 的 数据 是 否 具备 “规则 性 ”和 “一 致 性 ”。 

就 拿 本 革 的 案例 来 说 ， 如 采 在 验证 数据 规则 性 的 时 候 发 现 并 不 存在 
周期 性 ， 那 就 意味 着 用 户 的 使 用 时 间 有 段 完 全 是 随机 的 ， 有 时 是 早上 来 
访 ， 有 时 是 中 午 来 访 。 或 者 ， 如 果 发 现 数据 不 存在 一 致 性 ， 那 就 是 说 各 
个 用 户 的 来 访 时 间 也 是 随机 的 ， 有 的 用 户 只 在 早上 来 访 ， 有 的 用 户 则 是 
经 党 来 访 。 当 数据 存在 上 述 情 况 时 ， 预 测 模 型 是 很 难 构建 的 。 当 我 们 验 
证 了 数据 ， 并 确认 数据 没有 “规则 性 ”和 “一 致 性 ”时 ， 要 么 就 此 放 基 
生成 预测 模型 ， 要 么 对 数据 进行 归纳 ， 使 得 数据 具备 “规则 性 ”和 “一 
致 性 ”。 例 如 我 们 可 以 将 数据 以 天 为 单位 归纳 起 来 ， 或 者 只 抽取 出 满足 
某 些 条 件 的 用 户 〈 例 如 深夜 必然 来 访 的 用 户 )， 使 数据 具备 “规则 性 ” 
或 “一 致 性 "， 这 些 都 属于 “数据 的 归纳 ”。 


国 去除 噪声 数据 

在 使 用 统计 工具 的 时 候 ， 无 论 哪 种 工具 都 会 党 到 来 自 品 声 数 据 的 影 
啊 。 即 使 某 些 工具 受 噪 声 数 据 的 影响 较 小 ， 通 党 也 要 先 去 除 噪声 数据 再 
生成 模型 ， 这 样 得 到 的 模型 才 比 较 好 。 在 商业 领域 的 模型 生成 中 ， 如 何 
定义 噪声 数据 是 一 个 难点 。 我 们 所 需 的 预测 模型 不 仅 要 推理 严 谍 ， 还 需 
要 具有 实际 的 应 用 价值 。 因 此 在 完成 数据 分 析 之 后 ， 我 们 需要 和 游戏 的 
策划 人 员 确 认 ， 是 否 可 以 将 高 于 某 个 国 值 或 者 低 于 某 个 装 值 的 数据 定义 
为 噪声 数据 ， 为 外 还 需要 确认 对 这 个 国 值 附近 的 数据 进行 四 舍 五 和 是否 
2 


= 












































国 选 择 所 使 用 的 工具 

生成 预测 模型 的 工具 有 很 多 ， 到 目前 为 止 还 没有 哪个 工具 能 将 之 
前 所 有 的 工具 汇集 在 一 起 。 也 就 是 说 ， 对 菏 种 数据 而 言 ， 有 的 工具 可 以 
很 好 地 得 到 预测 模型 ， 而 有 的 工具 却 不 能 ， 因 此 我 们 需要 考虑 数据 和 工 
有 具 是 否 相 配 。 如 末 已 经 积 素 了 足够 的 数据 分 析 经 验 ， 在 验证 基础 数据 
时 ， 就 可 以 在 一 定 程度 上 判断 出 哪 种 工具 最 适合 该 数据 。 但 如 采 有 时 间 
的 话 ， 最 好 还 是 尽 可 能 地 使 用 多 种 工具 进行 验证 ， 并 选择 精度 最 高 的 
| 
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验证 数据 的 “规则 性 和 “一致 性 





下 面 我 们 首先 来 验证 数据 的 “规则 性 ”和 “一 致 性 ”。 对 于 用 户 的 
“一 致 性 ”， 我 们 可 以 通过 第 8 章 介绍 的 聚 类 分 析 的 方式 来 验证 。 如 采 数 
据 不 具备 “规则 性 ”或 “一 致 性 ”， 那 么 聚 类 就 不 可 能 得 出 结 有 末 。 下 图 
给 出 了 对 行为 A 一 周 的 数据 进行 规则 化 和 主 成 分 分 析 后 进行 k-means 聚 
类 的 结果 。 











一 一 早 7 点 来 访 型 ( 9.5% ) 一 一 早 8 点 来 访 型 ( 9.5% ) 一 一 周末 来 访 型 ( 8.1% ) 一 一 上 午 来 访 型 ( 12.0% ) 一 一 随时 来 访 型 ( 47.9% ) 一 一 深夜 来 访 型 ( 12.8% ) 
8% ] 
7% 1] 
6% ] 
5% ] 
4% -| 
3% 
-人 可 | 
AAA ji 
~ 人 AN MRNA 





和 Ya oe eg es sy i i hy ey i Tp i i se i De i We es es hy dy a nh eh es ee ss hs Ty Wy Ty he rr i i i a i 
ArmomonagdsrnomnmonNndsnom oa Nd Rom oa NA om oa NA om on Nd oo mo nn 
ddN QoN NAN 


图 中 的 横 轴 表示 “1 周 的 时 间 轴 ”， 纵 轴 表 示 “ 在 这 1 周 中 某 个 类 的 
用 户 的 来 访 比 率 ”。 通 过 上 图 可 以 得 知 ， 在 所 有 的 用 户 当中 ， 在 周末 休 
息 日 密集 来 访 的 “周末 来 访 型 ”用 户 占 总 体 的 8.1%， 而 “ 早 7 点 来 访 
型 ”和 “ 早 8 点 来 访 型 ”的 用 户 应 该 是 那些 在 上 班 和 上 学 途中 来 访 的 用 
户 ， 这 两 类 用 户 一 共 占 总 体 的 19.2%。 “上 午 来 访 型 ”用 户 占 总 体 的 
12%， 而 经 党 在 23 点 或 24 点 来 访 的 “深夜 来 访 型 ”用 户 占 总 体 的 
12.8%。 那 些 无 论 何 时 都 可 能 来 访 的 “随时 来 访 型 ”用 户 占 到 了 47.9%。 

可 以 看 出 在 将 聚 类 的 类 的 个 数 设 为 6 个 时 ， 能 够 较 好 地 将 不 同类 型 
的 用 户 区 分 开 。 虽 然 关 于 各 个 用 户 的 行为 A 的 数据 非常 散乱 ， 但 是 如 果 
放 在 1 周 的 时 间 长 度 里 ， 用 户 的 行为 就 可 以 被 分 别 分 到 6 个 类 中 ， 而 每 
个 类 的 用 户 都 有 各 自 的 行为 模式 。 由 此 我 们 验证 了 数据 具备 “规则 性 ” 
和 “一 致 性 "， 下 面 我 们 来 讨论 如 何 从 行为 数据 生成 预测 模型 。 


在 进行 多 变量 分 析 或 机 器 学 习 时 ， 如 果 分 析 对 象 数据 中 混入 了 噪声 
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数据 ， 那 么 生成 的 模型 很 可 能 精度 很 差 ， 因 此 我 们 需要 先进 行 噪声 数据 
的 处 理 。 

首先 ， 在 和 公司 策划 负责 人 进行 讨论 之 前 ， 我 们 需要 大 致 选 定 噪 声 
数据 的 国 值 。 根 据 数据 的 “规则 性 ”和 “一 致 性 ”， 我 们 先 假 定 “ 第 2 
天 用 户 会 在 和 之 前 相同 的 时 间 来 访 ”。 然 后 我 们 将 某 一 天 的 数据 作为 正 
解数 据 ， 用 户 “ 来 访 ” 和 “未 来 访 ” 作 为 类 别 变 量 ， 根据 用 户 过 去 的 行 
为 日 志 ， 来 推测 用 户 第 2 天 是 否 会 来 访 。 

在 本 例 中 ， 在 生成 模型 时 存在 噪声 数据 。 这 些 噪声 数据 就 是 在 单 
位 时 间 内 来 访 只 有 1、2 次 的 日 六 数据 。 如 末 根 据 这 些 数 据 就 认定 用 
户 “ 来 访 过 ”的 话 ， 那 就 可 能 将 用 户 的 一 些 误 操 作 当 作 是 来 访 ， 从 而 很 
难得 到 准确 的 模型 。 因 此 ， 当 单位 时 间 内 来 访 次 数 较 少 的 时 候 ， 我 们 需 
要 选 定 一 个 噪声 数据 的 国 值 ， 判 断 具 体 要 达到 哪个 数值 才 可 认定 为 “来 
Ws 

男 外 ， 使 用 过 去 多 长 时 间 的 行为 数据 才能 预测 用 户 第 2 天 的 行为 也 
需要 仔细 期 酌 。 比 如 ， 用 户 之 前 一 直 是 在 20 点 来 访 ， 而 昨天 20 点 由 于 
某 种 原因 用 户 未 能 来 访 。 要 想 包含 这 种 情况 ， 就 需要 累积 至 少 过 去 2 天 
的 行为 数据 。 也 就 是 说 ， 我 们 需要 仔细 其 酌 使 用 过 去 多 长 时 间 的 历史 数 
据 才 是 比较 合适 的 。 

要 想 算出 最 合适 的 时 长 ， 需 要 “单位 时 间 内 行为 次 数 的 国 值 ”和 “ 行 
为 次 数 的 累积 期 间 ” 这 2 个 变量 。 我 们 将 “行为 次 数 的 国 值 ” 定 在 1~ 
1000， 而 “行为 次 数 的 累积 期 间 ” 定 在 过 去 1~30 天 ， 然 后 通过 枚 举 的 
方式 找 出 最 能 说 明 情 况 的 数值 。 

能 将 事物 分 到 各 个 类 别 下 的 模型 称 为 分 类 模型 。 分 类 檬 型 的 判别 性 
能 是 通过 Precision( 准确 率 ) 和 Recall ( 召回 率 ) 这 2 个 指标 来 进行 评 
价 的 。Precision 反映 的 是 预测 准确 的 数量 ， 预 测 准 确 的 次 数 越 多 ， 这 个 
数值 就 越 大 。 而 Recall 反映 的 是 预测 准确 的 概率 ， 如 果 预 测 百 分 之 百 地 
准确 ， 那 这 个 数值 就 会 很 高 。 通 常 我 们 会 根据 不 同情 况 下 对 这 2 个 指标 
的 不 同 重视 程度 来 生成 分 类 模型 。 在 本 例 中 ， 这 2 个 指标 都 很 重要 ， 所 
以 我 们 需要 一 个 同时 包含 这 2 个 指标 的 高 次 元 指标 。 其 中 Fl 值 就 是 这 
样 一 个 用 于 整体 评价 的 指标 ， 它 将 Precision 和 Recall 等 价 来 看 待 。F1 
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值 由 下 式 计算 得 到 。 


2 
FI 值 = 1 1 


十 -一 
Recall Precision 


这 样 我 们 就 可 以 通过 F1 值 来 讨论 噪声 的 国 值 条 件 了 。 








-一 recall -一 precision 一 F 


Mm Mt 
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N 
pe i es 
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上 图 的 横 轴 表示 “行为 次 数 的 累积 期 间 ”， 我 们 将 “行为 次 数 的 国 
值 ” 设 定 在 1~1000， 然 后 使 用 过 去 1 ~ 30 天 的 累积 PV 数 (Page View， 
用 户 访问 Web 服务 各 的 次 数 ) 生成 分 类 模型 并 得 到 分 类 结 采 。 纵 轴 分 别 
表示 Precision 、Recall 和 Fl 值 。 从 图 中 可 以 看 出 ， 如 采 提 高 国 值 ， 就 会 
导致 Precision 下 降 而 Recall 上 升 。 如 果 延 长 累积 期 间 ，Precision 的 值 会 
逐渐 减 小 。 正 如 之 前 所 说 的 ， 这 二 者 是 一 种 此 消 彼 长 的 关系 。 











虽然 我 们 得 到 了 上 图 的 结果 ,但 是 因为 从 图 中 没 能 看 出 Fl 值 的 明 
显 峰 值 ， 所 以 我 们 将 各 种 条 件 下 生成 的 分 类 模型 的 Fl 值 由 大 到 小 排序 ， 
排名 前 10 的 Fl 值 如 下 表 所 示 。 











累积 天 数 PV 数 阀 值 Precision Recall F1 值 
3 7 0.404 0.72 0.5176 
3 6 0.403 0.715 0.5155 
3 8 0.406 0.705 0Q.5153 
3 Db 0.401 0.72 0.5151 











图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


246 | 第 10 章 如 何 让 组 队 游戏 充满 乐趣 


累积 天 数 PV 数 阅 值 Precision Recall 


3 


























根据 上 表 可 以 得 知 ， 在 “ 刚 过 去 的 3 天 中 相应 时 间 的 累计 行为 次 数 
小 于 7 次 时 ， 用 户 在 第 2 天 的 相同 时 间 不 会 来 访 ， 当 大 于 等 于 7 次 时 ， 
则 会 来 访 ” 这 一 分 类 模型 中 ，F1 值 很 高 。 

我 们 将 上 述 计算 得 出 的 条 件 传 达 给 了 游戏 的 策划 人 员 和 运营 人 员 。 
经 过 他 们 的 调查 ， 我 们 得 知 在 游戏 中 ， 虽 然 根据 起 始 页 面 的 不 同 有 所 不 
同 ， 但 在 用 户 达 到 能 够 获得 奖励 的 登录 奖励 页 面 之 前 ，PYV 数 为 5~6 次 。 
而 对 于 使 用 最 近 3 天 作为 国 值 ， 他 们 指出 这 种 做 法 的 理由 不 充分 。 

因此 我 们 进行 了 进一步 的 调查 ， 发 现 数据 中 有 一 两 天 在 相同 时 间 段 
的 访问 为 0 的 情况 较 多 。 也 就 是 说 ， 这 一 两 天 该 用 户 处 于 休息 的 状态 ， 
而 该 用 户 小 于 等 于 6 次 的 PV 数 实 际 上 来 自 于 该 用 户 在 某 一 天 的 偶然 来 
访 。 因 此 我 们 在 处 理 行为 日 志 时 ， 将 单位 时 间 内 PV 不 到 7 次 的 数据 视 
为 是 噪声 数据 ， 并 将 此 数据 的 值 置 为 0。 














选 定 所 用 的 学 习 算 法 

在 本 例 中 ， 我 们 还 有 几 天 的 时 间 来 准备 新 的 策划 方案 ， 因 此 我 们 选 
取 了 5 种 有 代表 性 的 机 器 学 习 算 法 来 对 类 别 变量 进行 预测 。 这 5 种 算法 
分 别 是 : “逻辑 回归 ”“k 近邻 法 ”“ 朴 素 贝 叶 斯 分 类 器 "“SVM” 和 “ 随 
机 森林 ”。 下 面 我 们 就 来 判断 在 “根据 过 去 7 天 的 行为 日 志 来 推断 第 2 
天 的 用 户 来 访 时 间 ” 这 一 案例 中 哪 种 算法 的 效果 最 好 。 

我 们 对 3 ~ 9 天 前 的 行为 日 志 进行 了 去 噪声 数据 的 处 理 ， 并 使 用 上 
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述 各 种 机 器 学 习 算 法 生成 预测 模型 ， 预 测 2 天 前 用 户 什么 时 候 来 访 。 将 
该 预测 模型 用 于 经 过 噪声 处 理 的 2 ~ 8 天 前 的 一 周 的 行为 日 志 ， 推 断 用 
户 昨 天 什么 时 候 来 访 ， 并 计算 同 实际 的 数据 的 一 致 率 。 这 其 中 的 数据 加 
工 方法 和 10.3 节 以 及 10.4 节 中 介绍 的 方法 一 样 。 

为 了 使 机 顺 学 习 算 法 能 够 获得 较 好 的 性 能 ， 我 们 需要 将 预测 模型 的 
各 种 结果 所 对 应 的 数据 调整 到 大 致 一 样 的 数量 。 在 本 例 中 ， 也 就 是 将 数 
据 中 “来 访 ” 的 人 数 和 “未 来 访 ” 的 人 数 调整 到 大 致 相同 。 对 于 2 天 前 
的 各 个 时 间 段 ， 我 们 将 7PV 设置 为 国 值 ， 并 对 数据 进行 抽样 ， 使 数据 中 
“来 访 ” 和 “未 来 访 ” 的 人 数 保 持 一 致 。 然 后 根据 抽样 数据 的 大 小 ， 将 
抽样 后 的 数据 分 为 训练 数据 和 测试 数据 两 部 分 。 接 着 使 用 某 个 用 户 群 的 
训练 数据 生成 预测 模型 ， 预 测 用 户 在 2 天 前 来 访 的 各 个 时 间 ， 并 将 这 个 
预测 模型 用 于 剩余 的 用 户 群 的 测试 数据 ， 验 证 该 模型 的 精度 。 男 外 ， 我 
们 还 可 以 使 用 其 他 期 间 的 数据 来 验证 该 模型 的 预测 精度 。 


训练 数据 ”测试 数据 ”验证 数据 ”训练 数据 ”测试 数据 ”验证 数据 
的 一 致 率 ”的 一 致 率 ”的 一 致 率 ”的 标准 差 ”的 标准 差 的 标准 差 





逻辑 回归 
k 近邻 法 
LS 
k 近邻 法 
(k=30 ) 











朴素 贝 叶 斯 


SVM 
( 线性 核 ) 
SVM 
( 多 项 式 核 ) 
SVM 
( 高 斯 核 ) 
SVM 
( Sigmoid 核 ) 


上 表 中 明确 给 出 了 各 个 学 习 算 法 的 精度 。 可 以 看 出 ， 对 于 本 例 中 的 
数据 ， 使 用 各 种 核 旺 数 的 SVM 和 随机 和 森林 算法 的 预测 精度 最 高 。 
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解决 对 策 








追加 队伍 推荐 的 功能 


本 例 的 数据 分 析 属 于 第 2 章 中 所 说 的 “上 自动 化 ' 最 优化 ”这 一 
类 。 通 过 比较 各 种 机 可 学 习 算法 的 预测 精度 ， 我 们 决定 使 用 随机 森林 算 
法 来 生成 预测 模型 ， 并 对 每 个 用 户 在 第 2 天 的 茶 个 时 间 段 来 访 的 概率 做 
出 预测 。 

通过 和 别 的 部 门 商 讨 ， 最 终 基于 预测 数据 在 游戏 中 添加 了 为 用 户 推 
存 队 伍 的 功能 ， 当 某 个 用 户 在 搜索 可 以 加 入 的 队伍 时 ， 我 们 对 第 2 天 该 
用 户 可 能 到 来 的 时 间 段 进行 预测 ， 并 回 其 推荐 相同 时 间 段 有 较 多 人 同时 
在 线 的 队伍 。 
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在 本 章 中 ， 我 们 使 用 机 融 学 习 的 方法 进行 了 数据 分 析 。 本 章 的 案例 
和 第 9 章 一 样 ， 是 一 种 数据 探索 型 的 数据 分 析 ， 因 此 需要 在 数据 处 理 和 
数据 加 工 上 花费 较 多 的 精力 。 妃 外 ， 本 例 还 充分 考虑 了 “月 劲 化 :最 优 
化 ”的 特性 。 在 顺利 得 到 预测 模型 后 ， 为 了 使 结果 能 够 切实 地 改善 我 们 
的 服务 ， 还 需要 和 游戏 的 策划 人 员 进 行 深 入 的 商讨 或 者 头脑 风 蛤 。 在 互 
联网 行业 当中 ， 这 也 会 牵涉 到 游戏 的 开发 人 员 ， 因 此 还 需要 和 他 们 进行 
讨论 。 

总 之 ， 在 第 9 草 和 第 10 革 中 介绍 的 内 容 属 于 数据 挖掘 的 范畴 ， 而 
这 正 是 数据 分 析 人 员 能 够 发 挥 自 员 价值 的 地 方 。 然 而 ， 数 据 处 理 方面 的 














内 容 对 外 行人 而 言 很 难 理解 ， 所 以 需要 数据 分 机 人 员 和 服务 的 策划 人 员 
能 给 出 详细 的 说 明 ， 或 者 在 必要 时 与 其 他 人 员 开 展 头脑 风暴 。 
分 析 流 程 第 10 章 中 数据 分 析 的 成 本 
现状 和 预期 


发 现 问题 








数据 的 收集 和 加 工 
数据 分 析 
解决 对 策 
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ed 于 细 的 R 代 码 











第 10 章 全 部 内 容 的 有 R 代码 非常 复杂 且 代 码 量 较 大 ， 由 于 篇 幅 的 关 
系 ， 我 们 就 不 给 出 全 部 的 代码 了 。 这 里 将 输出 的 结果 省 略 ， 只 保留 到 
10.3 节 为 止 的 数据 加 工 的 部 分 ， 以 及 在 选 定 机 器 学 习 算 法 时 使 用 的 随机 
森林 算法 的 部 分 。 下 面 我 们 来 介绍 这 部 分 的 RR 代码。 











# 生成 用 于 读 入 中 间 数 据 的 函数 
library (plyr) 
library (foreach) 


readActionHourly <- function(app.name, date.from, date.to) { 
date.from <- as.Date (date.from) 
date.to <- as.Date (date.to) 
ldply (foreach(day = seq.Date(date.from, date.to, by = "day'"), 
combine = rbind) %do% 
| 
f <- Sprintf("sample-qaata/section10/action hourly/%s/%s/action 
hourly.tsv", app.name, day) 
read.csv(f, header = T, stringsAsFactors = F, sep = "\t") 
}) 
} 


# 用 生成 的 函数 谈 入 数据 
action.hourly <- readActionHourly("game-01", "2013-08-01", "2013-08-08") 
head (action.hourly) 


# 将 数据 整理 成 以 时 间 段 为 列 的 形式 

library (reshape2) 

ae Uauelaceuon hourly .logndaee 

inner lonply(l (lengtil(adates oe To Tonetionm(n 
day <- dates[il] 
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x aCeLron hourlylactron hourly Logdte = day | 
dE qecast (x useriigd logorhour value var = "coune, 
EC (ifelse(sum(X S72 0 0 
) 
namesl(dr EUSeqoasee 2 
Ba 
head (train.list[[1]]) 


# 生成 用 于 说 明 的 数据 

train.data <- train.list[[1]] 

| 
GE 去 三 七 2 LS [LI 
Ra Enge lsTnRqaea ed 0 = ue Ie = 
train.datalis.na(train.data)] <- 0 


} 


names (train.data) 


# 生成 用 于 作答 的 数据 
ansg ace lion hourly leccuen nourlyv Loondate =- datesllenge ndates | 


# 将 数据 整理 成 以 时 间 段 为 列 的 形式 
anse doaselam0 us er ud Too liourg vol vor ee oo 
EUnet on 
neelsel(esu (e070 
}) 
mameslans) el userougd pasee0 023 
head (ans) 


# 与 用 于 说 明 的 数据 合并 

Bromedaser mergeleraln da sons oy 9 use Ld 7 
train.datalis.na(train.data)] <- 0 

names (train.data) 

head (train.data) 


# 按 每 个 时 间 段 构建 模型 ( 随机 森林 ) 
library (randomForest) 
library (caret) 


HO 日 下 久 涪 写 大 
fon aoe.oN(meene eo 0 sm 0 


# 随机 森林 算法 的 学 习 过 程 
| 


Qi Sram eral ep see oe 0 | 
oil <-= GElGET Heol (di) EE 1, | 
dQ0 .OPid <= EOE[;, neol (oe)| ss 0 | 
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df0 <- df0.orig[sample(l1l:nrow(df0.orig), nrow(df1)), | 

Gl el (Cele 0) 

{Go eo I eol 
methede urpreeess el eenteern seale ne 
Enon el ie na 

fi 


}) 


# 显示 根据 生成 的 模型 得 到 的 预测 值 和 实际 值 的 比较 结 
FOr (3 To 23 | 
result .rf <- predict (rf.fit.list[[(i + 1)]]s$finalModel, train.data) 
aes elselGesve 0 0) 


Brunel(leoniustonMlaeri esule i ored tram dacalepoasee0 an 


ale 


国 关 于 随机 森林 算法 

随机 和 森林 算法 是 集成 学 习 方 法 的 一 种 ， 可 用 于 实现 分 类 和 回归 。 

例如 ， 根 据 过 去 的 访问 日 志和 第 2 天 用 户 是 否 来 访 的 数据 集 ， 可 以 
学 习 得 到 分 类 模型 ， 再 利用 这 个 分 类 模型 ， 可 以 预测 用 户 明天 是 否 会 来 
访 。 当 我 们 预测 的 对 象 为 是 否 来 访 这 种 0/1 离散 值 的 情况 时 ， 这 就 是 一 
个 分 类 问题 。 

但 是 如 果 我 们 需要 根据 过 去 的 访问 日 志和 第 2 天 用 户 来 访 了 儿 次 的 
数据 集 去 预测 明天 用 户 会 来 访 多 少 次 ， 因 为 预测 的 对 和 象 是 像 来 访 几 次 这 
种 连续 值 的 情况 ， 所 以 就 是 一 个 回归 问题 。 

集成 学 习 通 常 是 将 多 个 精度 不 高 的 模型 综合 起 来 ， 每 个 模型 部 会 有 
输出 结 末 ， 而 最 终 的 结果 采取 少数 服从 多 数 的 原则 ， 从 而 得 到 精度 更 高 
的 模型 。 如 于 是 分 类 问题 ， 那 么 就 是 少数 服从 多 数 。 如 采 是 回归 问题 ， 
则 是 求 所 有 模型 输出 的 平均 值 。 

使 用 随机 森林 算法 ， 先 随机 地 对 数据 进行 抽样 ， 然 后 根据 抽样 数据 
建立 决策 树 ， 多 次 重复 以 上 步骤 即 可 得 到 多 棵 决策 树 ， 再 将 这 些 决 策 树 
统合 起 来 最 终 得 到 一 个 高 精度 模型 。 这 也 是 “随机 森林 ”这 一 名 称 的 由 
来 。 具 体 的 模型 生成 步 又 如 下 所 示 。 
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中 从 数据 集中 抽样 得 到 N 组 抽样 数据 

(© 从 数据 集中 抽样 得 到 M 个 变量 

(3) 生成 决策 树 

人 重复 之 前 的 四 ~ @ 

(9) 将 需要 预测 的 数据 提供 给 4 中 得 到 的 所 有 决策 树 

(© 根据 (5) 的 结果 ， 将 多 数 模 型 输出 的 那个 或 者 平均 值 作为 预测 结果 


国 对 R 语 言 的 随机 森林 算法 及 其 输出 的 解释 

通过 trainControl 图 数 ， 我 们 可 以 目 定 义 机 需 学 习 的 过 程 。 其 中 
参数 method 用 来 指定 学 习 的 算法 ， 参 数 p 用 来 指定 用 于 学 习 的 数据 占 
数据 总 体 的 比例 ，number 用 来 指定 需要 反复 执行 的 次 数 。 那 么 之 前 所 
介绍 的 RR 代码 的 意思 就 是 “使 用 整体 数据 的 75% 来 进行 学 习 ， 剩 下 的 
25% 用 来 做 模型 验证 ,使 用 LGOCY 的 方法 反复 进行 30 次 学 习 ”。 

而 在 实际 的 学 习 执 行 过 程 中 ， 我 们 使 用 的 是 train 函数。 在 之 前 的 
R 代码 中 ， 我 们 将 method 设 为 “rf”， 表 示 使 用 的 是 随机 和 森林 算法 ， 并 
使 用 preProcess 参数 对 数据 进行 标准 化 ， 最 后 通过 参数 trcontrol 将 
之 前 设 定 的 fit .control 内 容 传 入 孙 数 。 

使 用 上 面 生成 的 模型 进行 预测 ， 并 将 预测 值 和 实际 值 进行 比较 。 这 
里 我 们 使 用 confusionMatrix 藤 数 对 各 个 时 间 段 的 结果 进行 评价 。 

之 前 的 及 代码 中 随机 穆 林 算法 的 输出 结 采 如 下 所 示 。 




















并 

### Reference 

## Prediction 0 1 

## 0 378 21 

### 1 90 46 

## 

## Accuracy : 0.793 
## 95% CI : (0.756, 0.826) 
## No Information Rate : 0.875 
## P-Value [Acc > NIR] : 1 

## 
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通过 执行 confusionMatrix 图 数 ， 首 先 可 以 得 到 如 下 所 示 的 实际 
值 和 预测 值 的 交叉 统计 列表 。 
0 ( 实际 值 ) 1 (实际 值 ) 


0 ( 预测 值 ) 
1 ( 预测 值 ) 


在 本 例 中 ,在 由 随机 森林 算法 生成 的 模型 中 ， 预 测 值 为 1 (来 访 ) 














的 用 户 位 于 “1 (预测 值 ” 这 一 行 ， 而 实际 来 访 的 用 户 位 于 “1 (实际 
值 》 这 一 列 。 

也 就 是 说 ， 预 测 值 和 实际 值 都 为 “1” 的 用 户 有 46 名 ， 这 意味 着 我 
a i can dl 而 预测 值 和 实际 
值 都 为 “0” 的 用 户 有 378 名 ， 这 意味 着 我 们 预测 这 些 用 户 不 会 来 访 且 
实际 上 他 们 确实 没有 来 。 接 着 我 们 来 看 看 模型 的 准确 率 Accuracy。 在 
上 面 的 交叉 统计 列表 中 ， 可 以 通过 ( 预测 准确 的 次 数 / 总 数 ) 计算 得 出 。 
本 例 中 的 准确 率 为 : 








(378+46)/1(378+21+ 90+46) = 0.793 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 





© 2014 本 书 内 容 受 著作 权 法 保护 ， 未 经 作者 和 出 版 社 许可 ， 不 得 以 任何 方式 复 
制 本 书 内 容 。 








图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


和 版权 声明 


BUSINESS KATSUYO JIREIDE MANABU DATA SCIENCE NYUMON 
Copyright © 2014 Ryujl Sakamakl & Yohel Sato 

Originally published In Japan by SB Creative Corp. 

Chinese (In simplified character only) translation rights 

arranged with SB Creative Corp., Tokyo through CREEK & RIVER Co., Ltd. 
ALL rights reserved. 


本 书 中 文人 简 体 字 版 由 SB Creative Corp. 授权 人 民 邮 电 出 版 社 独 家 出 版 。 
未 经 出 版 者 书面 许可 ， 不 得 以 任何 方式 复制 或 抄 玖 本 书 内 容 。 
版 权 所 有 ， 侵 权 必 究 。 











图 灵 社 区 会 员 miguo(1602526088@qq.com，) 专 享 尊重 版 权 





回复 “数据 分 析 ” 查 看 相关 书 单 








微 博 连 接 
天 注 @ 图 灵 教 育 每 日 分 享 |T 好 书 


名 








QQ 连接 


图 灵 读 者 官方 群 I: 218139230 
图 灵 读 者 官方 群 I: 164939616 


图 灵 社 区 
iTuring.cn 
在 线 出 版 , 电子 书 ,《 码 农 》 杂 志 , 图 灵 访 谈 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 





如 何 恢复 销售 额 ? 
哪 种 广告 的 效果 会 更 好 ? 
游戏 用 户 为 何 会 流失 ? 
如 何 让 组 队 游戏 充满 乐趣 ? 


一 线 数据 分 析 师 教 你 用 数据 搞定 ! 


本 书 由 实战 经 验 丰 是 的 两 位 数据 分 析 师 执笔 结合 8 个 真实 的 案 
例 ， 话 细 解 说 了 通过 数据 分 析 解 决 各 种 商业 问题 的 过 程 。 特 别 是 书 
中 使 用 的 数据 都 是 未 经 清洗 的 原始 数据 ， 对 如 何 加 工 数 据 以 用 于 分 
析 也 进行 了 详细 的 介绍 。 读 者 可 以 使 用 R 语 言 实际 操作 数据 ， 体 验 真 
实 的 数据 分 析 流 程 。 





热线 : (010)51095186 转 600 


人 民 邮 电 出 版 社 网 址 : www.ptpress.com.cn 定价 : 45.00 元 
图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


ISBN 978=7=115=4954953=9 
图 灵 社 区 : iTuring.cn | 
9292871124242390> 


元 了 


如 果 您 对 本 书 内 容 有 疑问 ， 可 发 邮件 至 contact@turingbook.com， 会 
有 编辑 或 作 译 者 协助 答疑 。 也 可 访问 图 灵 社 区 ， 参 与 本 书 讨 论 。 


如 果 是 有 关 电 子 书 的 建议 或 问题 ， 请 联系 专用 客服 邮箱 : 


ebook@turingbook.com。 
在 这 可 以 找到 我 们 : 


微 博 @ 图 灵 教 育 : 好 书 、 活 动 每 日 播报 

微 博 @ 图 灵 社 区 : 电子 书 和 好 文章 的 消息 

微 博 @ 图 灵 新 知 : 图 灵 教 育 的 科普 小 组 

微 信 图 灵 访 谈 : ituring_interview， 讲 述 码 农 精彩 人 生 
微 信 图 灵 教 育 : turingbooks 


图 灵 社 区 会 员 miguo(1602526088@qq.com) 专 享 尊重 版 权 


